Contenido

2. Datos

[1]

Este tema le familiarizará con las versátiles y novedosas herramientas que R tiene para la era de la información y su manejo. Aprenderá a convertir entre uno y otro formato longitudinal a ancho y viceversa. Empleando comandos (instrucciones) de consulta podrá acceder a la información que busca, es decir, serás capaz de "encontrar la aguja en el pajar". Podrá seleccionar, filtrar, agrupar o realizar operaciones con variables de su interés, partiendo de los criterios que guíen su consulta. Ésta es una parte central del manejo de datos y una habilidad que aumentará sus capacidades analíticas, lo que le conferirá alta productividad con comandos cortos y concisos.

2.1. En dónde encontrar datos, cómo cargarlos y guardarlos

Estamos en una era en la que es más fácil obtener datos que generarlos. En esta sección revisaremos algunos sitios de internet que son repositorios de conjuntos de datos. También veremos cómo generar datos ficticios (mock data) de manera aleatoria, con el propósito de evaluar la pertinencia de nuestros diseños experimentales. Podemos modificar las propiedades estadísticas de nuestros conjuntos de datos a partir del empleo de distintas funciones. Finalmente, veremos cómo las funciones básicas read.table() y write.table() nos permiten cargarlos y guardarlos en nuestro ordenador, así como los paquetes que complementan esta funcionalidad añadiendo la capacidad de subir datos de otros formatos populares como Excel.

Para reforzar este tema, revise la siguiente presentación:


Ahora, se propone la visualización de los siguientes videos:

Estadística y Manejo de Datos con R UV. (2021, agosto 16). Clase 2 1 BasesDatos1 ed [Video]. YouTube.

Estadística y Manejo de Datos con R UV. (2021, agosto 16). Clase 2 2 BasesDatos2 ed [Video]. YouTube.

2.2. Acomodo de datos

En muchas ocasiones, los datos que tenemos no están dispuestos en un formato que facilita su visualización y análisis, por lo que requieren de su correcto acomodo.

2.3. Operaciones lógicas

El acomodo de datos requiere de operaciones lógicas que permitan incluir, excluir o combinarlos. En esta sección revisaremos la forma básica de realizar estas operaciones lógicas mediante la indización.

Revise la presentación que se muestra a continuación:


Ahora, visualice el siguiente video:

Estadística y Manejo de Datos con R UV. (2021, agosto 16). Clase 2 3 Head Tail ed [Video]. YouTube.

2.4. Funciones básicas subset() y aggregate()

En la biblioteca básica de R, las funciones subset() y aggregate() permiten realizar subconjuntos o agregar datos de manera sencilla, sin utilizar índices u operaciones lógicas complejas.

Para reforzar este tema, revise la siguiente presentación:


Visualice ahora el siguiente video:

Estadística y Manejo de Datos con R UV. (2021, agosto 16). Clase 2 4 Subset Aggregate ed [Video]. YouTube.

2.5. Biblioteca tidyr: para acomodar datos ágilmente

Esta es la biblioteca central del conjunto conocido como tidyverse, que propulsa a R a la nueva era en el manejo de datos. Tidyr contiene múltiples funciones para realizar acomodo de datos para que éstos estén disponibles en importantes funciones de visualización de análisis, sobre todo enfatizando el principio de una columna por variable y una observación por fila. La construcción de funciones y parámetros en la librería tidyr sigue una lógica intuitiva, que permite la escritura y lectura de código de forma ágil y similar al lenguaje humano.

A continuación, revise la presentación referente al acomodo de datos:


Ahora, visualice el siguiente video:

Estadística y Manejo de Datos con R UV. (2021, agosto 16). Clase 2 5 tidyr small [Video]. YouTube.

2.6. Biblioteca dplyr: para manipular la estructura interna de bases de datos

Continuando con la tradición de funciones con nomenclatura y uso intuitivo, dplyr ofrece una auténtica caja de herramientas con las que podemos manipular la estructura interna de las bases de datos eficientemente; por ejemplo, podemos obtener resúmenes estadísticos de éstas, aunque sean muy extensas; agregar columnas que resulten de realizar operaciones con variables (columnas) existentes y un sinfín de operaciones que sólo tienen como límite la imaginación. Cabe señalar que estas funciones se desarrollaron para procesar bases de datos muy grandes, por lo que sus algoritmos permiten procesar enormes cantidades de información rápidamente.

Para reforzar este tema, revise la siguiente presentación:


A continuación, visualice el siguiente video:

Estadística y Manejo de Datos con R UV. (2021, agosto 16). Clase 2 6 dplyr small [Video]. YouTube.

2.7. Biblioteca magrittr: para agilizar la programación con el operador “tubo” %>%

Esta biblioteca provee de una innovadora forma de programación mediante “tubos”. Programar así implica un cambio de paradigma en la forma del uso de las funciones, que va más acorde con la forma en que cognitivamente creamos un código. La capacidad de mandar por un “tubo” el resultado de una función y, a su vez, enviarlo por otro “tubo,” una vez que está procesada la información, le otorga agilidad y legibilidad a nuestro código.

Acceda a la siguiente presentación:


Ahora, visualice el siguiente video:

Estadística y Manejo de Datos con R UV. (2021, agosto 16). Clase 2 7 magrittr small [Video]. YouTube.

2.8. Biblioteca forcats: para llevar el uso de factores a otro nivel

Esta biblioteca nos ayudará a manipular más eficientemente la estructura de datos conocida como factor. Los factores son extremadamente útiles y necesarios para realizar muchas operaciones en R. Sin embargo, la presencia de niveles en su estructura interna hace que el manejo y operación de los factores sean algo rígidos. Con forcats podremos hacer manipulaciones como unión o remoción de niveles de manera ágil, en conjunto con otras funciones de las bibliotecas de tidyverse y la programación “tubos.”

Para reforzar el tema anterior, analice la siguiente presentación:

Actividad 3. Datos.

Descripción:

Esta actividad le capacitará para leer archivos de datos desde R, así como para modificarlos y re-escribirlos. Explorará conjuntos de datos pre-cargados en el espacio de trabajo, utilizando funciones que le permiten conocer sus dimensiones, estructura, nombres de las variables que contienen, así como visualizar sus encabezados o colas. Ésta es una forma ágil de explorar el formato en el que está codificado un conjunto de datos, sin necesidad de visualizar todo el conjunto, lo que resulta práctico cuando se trabaja con bases de datos de grandes dimensiones.

Recuerde agregar, como comentarios en su script, sus dudas o los mensajes de advertencia y/o error que R le haya reportado, así como los comandos que los originaron.

Indicaciones

Leer, modificar, escribir y explorar conjuntos de datos con funciones incluidas dentro de las bibliotecas básicas y las bibliotecas adicionales disponibles para R.

Ejercicios:

2.1.1 Cargar y guardar datos. Abrir

2.2.1 Acomodar datos. Abrir

2.3.1 Las funciones subset() y aggregate(). Abrir

2.4.1 La biblioteca tidyr. Abrir

2.5.1 La biblioteca dplyr. Abrir

2.6.1 La biblioteca magrittr. Abrir

2.7.1 La biblioteca forcats. Abrir

Criterios de desempeño:

  1. Código ejecutable en script de *.R, distinguiendo líneas de comentarios de comandos.
  2. Carga de conjuntos de datos incluidos en R o propios, al espacio de trabajo en R.
  3. Instalación y carga de bibliotecas de funciones adicionales.
  4. Reconocimiento de estructuras y manejo de datos.

Lineamientos de entrega:

  1. Divida su script en secciones, usando hashtag # al inicio de las líneas que comente. Para conocer ejemplos de scripts revise la Clase 3.0 Scripts, funciones y control de flujo.pdf. Por ejemplo, si va a iniciar la sección en que asigna su directorio de trabajo, puede indicarlo con la línea: # Ajustar directorio de trabajo setwd(“/Usuario/CursoEMDR”) y en las líneas subsecuentes agregue los comandos que correspondan a la solución del ejercicio en turno.
    1. Titule el archivo (*.R) de la siguiente forma: Actividad3_ApellidoPaternoPrimerNombre.R.  Ejemplo: Actividad3_CoyotlPedro.R
    2. Envíe su archivo (*.R), a través del apartado Actividades de la plataforma Eminus, a más tardar en la fecha establecida en el Calendario de entregas.

Foro 2. Datos.

Descripción:

  1. Este foro estará abierto para acompañarse en el proceso de elaborar los ejercicios que competen a este tema, para compartir dudas o estrategias de cómo resolverlos, así como para participar exponiendo su experiencia y los mensajes que se señalaron al usar el software.
  2. El foro estará abierto sólo hasta la fecha límite indicada.
  3. Recuerde atender a las Reglas para participar en foros de discusión.

Criterios de desempeño:

  1. Compartir y discutir soluciones de las actividades.
  2. Valorar la pertinencia de modificar nuestra estrategia al usar el software.
  3. Sugerir ideas que den pauta a una práctica más funcional del software.

Lineamientos de entrega:

  1. Publique su participación en el Foro del Tema II. Datos
  2. Su participación en el foro será en la fecha establecida en el Calendario de entregas. Los foros no concederán prórroga.

Fuentes de Información

De Jonge, E. & Van der Loo, M. (2013). An introduction to data cleaning with R. Statistics Netherlands. https://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf

Díaz-Uriarte, R. (2003). Introducción al uso y programación del sistema estadístico R. Unidad de Bioinformática. Centro Nacional de Investigaciones Oncológicas (CNIO). http://cran.r-project.org/doc/contrib/curso-R.Diaz-Uriarte.pdf

1 Pressfoto (2019). Coding man Free Photo. [Imagen]. Freepik. https://www.freepik.com/free-photo/coding-man_5633683.htm