Este tema le familiarizará con las versátiles y novedosas herramientas que R tiene para la era de la información y su manejo. Aprenderá a convertir entre uno y otro formato longitudinal a ancho y viceversa. Empleando comandos (instrucciones) de consulta podrá acceder a la información que busca, es decir, serás capaz de "encontrar la aguja en el pajar". Podrá seleccionar, filtrar, agrupar o realizar operaciones con variables de su interés, partiendo de los criterios que guíen su consulta. Ésta es una parte central del manejo de datos y una habilidad que aumentará sus capacidades analíticas, lo que le conferirá alta productividad con comandos cortos y concisos.
2.1. En dónde encontrar datos, cómo cargarlos y guardarlos
Estamos en una era en la que es más fácil obtener datos que generarlos. En esta sección revisaremos algunos sitios de internet que son repositorios de conjuntos de datos. También veremos cómo generar datos ficticios (mock data) de manera aleatoria, con el propósito de evaluar la pertinencia de nuestros diseños experimentales. Podemos modificar las propiedades estadísticas de nuestros conjuntos de datos a partir del empleo de distintas funciones. Finalmente, veremos cómo las funciones básicas read.table() y write.table() nos permiten cargarlos y guardarlos en nuestro ordenador, así como los paquetes que complementan esta funcionalidad añadiendo la capacidad de subir datos de otros formatos populares como Excel.
Para reforzar este tema, revise la siguiente presentación:
Ahora, se propone la visualización de los siguientes videos:
2.2. Acomodo de datos
En muchas ocasiones, los datos que tenemos no están dispuestos en un formato que facilita su visualización y análisis, por lo que requieren de su correcto acomodo.
2.3. Operaciones lógicas
El acomodo de datos requiere de operaciones lógicas que permitan incluir, excluir o combinarlos. En esta sección revisaremos la forma básica de realizar estas operaciones lógicas mediante la indización.
Revise la presentación que se muestra a continuación:
Ahora, visualice el siguiente video:
2.4. Funciones básicas subset() y aggregate()
En la biblioteca básica de R, las funciones subset() y aggregate() permiten realizar subconjuntos o agregar datos de manera sencilla, sin utilizar índices u operaciones lógicas complejas.
Para reforzar este tema, revise la siguiente presentación:
Visualice ahora el siguiente video:
2.5. Biblioteca tidyr: para acomodar datos ágilmente
Esta es la biblioteca central del conjunto conocido como tidyverse, que propulsa a R a la nueva era en el manejo de datos. Tidyr contiene múltiples funciones para realizar acomodo de datos para que éstos estén disponibles en importantes funciones de visualización de análisis, sobre todo enfatizando el principio de una columna por variable y una observación por fila. La construcción de funciones y parámetros en la librería tidyr sigue una lógica intuitiva, que permite la escritura y lectura de código de forma ágil y similar al lenguaje humano.
A continuación, revise la presentación referente al acomodo de datos:
Ahora, visualice el siguiente video:
2.6. Biblioteca dplyr: para manipular la estructura interna de bases de datos
Continuando con la tradición de funciones con nomenclatura y uso intuitivo, dplyr ofrece una auténtica caja de herramientas con las que podemos manipular la estructura interna de las bases de datos eficientemente; por ejemplo, podemos obtener resúmenes estadísticos de éstas, aunque sean muy extensas; agregar columnas que resulten de realizar operaciones con variables (columnas) existentes y un sinfín de operaciones que sólo tienen como límite la imaginación. Cabe señalar que estas funciones se desarrollaron para procesar bases de datos muy grandes, por lo que sus algoritmos permiten procesar enormes cantidades de información rápidamente.
Para reforzar este tema, revise la siguiente presentación:
A continuación, visualice el siguiente video:
2.7. Biblioteca magrittr: para agilizar la programación con el operador “tubo” %>%
Esta biblioteca provee de una innovadora forma de programación mediante “tubos”. Programar así implica un cambio de paradigma en la forma del uso de las funciones, que va más acorde con la forma en que cognitivamente creamos un código. La capacidad de mandar por un “tubo” el resultado de una función y, a su vez, enviarlo por otro “tubo,” una vez que está procesada la información, le otorga agilidad y legibilidad a nuestro código.
Acceda a la siguiente presentación:
Ahora, visualice el siguiente video:
2.8. Biblioteca forcats: para llevar el uso de factores a otro nivel
Esta biblioteca nos ayudará a manipular más eficientemente la estructura de datos conocida como factor. Los factores son extremadamente útiles y necesarios para realizar muchas operaciones en R. Sin embargo, la presencia de niveles en su estructura interna hace que el manejo y operación de los factores sean algo rígidos. Con forcats podremos hacer manipulaciones como unión o remoción de niveles de manera ágil, en conjunto con otras funciones de las bibliotecas de tidyverse y la programación “tubos.”
Para reforzar el tema anterior, analice la siguiente presentación:
Para evaluar sus aprendizajes acerca del Tema II. Datos, diríjase a la sección de Actividades e ingrese a la Actividad 3 y al Foro del Tema II, atendiendo las indicaciones para su realización.
Descripción:
Esta actividad le capacitará para leer archivos de datos desde R, así como para modificarlos y re-escribirlos. Explorará conjuntos de datos pre-cargados en el espacio de trabajo, utilizando funciones que le permiten conocer sus dimensiones, estructura, nombres de las variables que contienen, así como visualizar sus encabezados o colas. Ésta es una forma ágil de explorar el formato en el que está codificado un conjunto de datos, sin necesidad de visualizar todo el conjunto, lo que resulta práctico cuando se trabaja con bases de datos de grandes dimensiones.
Recuerde agregar, como comentarios en su script, sus dudas o los mensajes de advertencia y/o error que R le haya reportado, así como los comandos que los originaron.
Indicaciones
Leer, modificar, escribir y explorar conjuntos de datos con funciones incluidas dentro de las bibliotecas básicas y las bibliotecas adicionales disponibles para R.
Ejercicios:
2.1.1 Cargar y guardar datos. Abrir
2.2.1 Acomodar datos. Abrir
2.3.1 Las funciones subset() y aggregate(). Abrir
2.4.1 La biblioteca tidyr. Abrir
2.5.1 La biblioteca dplyr. Abrir
2.6.1 La biblioteca magrittr. Abrir
2.7.1 La biblioteca forcats. Abrir
Criterios de desempeño:
Lineamientos de entrega:
Descripción:
Criterios de desempeño:
Lineamientos de entrega:
De Jonge, E. & Van der Loo, M. (2013). An introduction to data cleaning with R. Statistics Netherlands. https://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf
Díaz-Uriarte, R. (2003). Introducción al uso y programación del sistema estadístico R. Unidad de Bioinformática. Centro Nacional de Investigaciones Oncológicas (CNIO). http://cran.r-project.org/doc/contrib/curso-R.Diaz-Uriarte.pdf