Al fin llegamos a la parte más dulce y desafiante del curso. Dulce, porque una vez procesados los datos y organizados en los formatos requeridos, correr los análisis estadísticos llega a ser cuestión de segundos. El desafío radica en comprender los fundamentos teóricos de las operaciones matemáticas que aplicamos, así como en interpretar los resultados que obtenemos. En esta sección haremos una concisa revisión de los métodos comúnmente empleados para efectuar estadística inferencial, así como de las técnicas de agrupación que permiten identificar y agrupar casos de acuerdo con el grado de similitud que comparten.
5.1. Preprocesamiento de datos
Una vez colectados los datos, inicie el preprocesamiento (preparación para el análisis). En esta sección revisaremos bibliotecas que nos pueden ayudar a homogeneizar datos complejos, tales como las fechas o los tiempos, lidiar con datos faltantes, ya sea para eliminarlos o imputarlos, entre otros hábitos y técnicas que nos permitan agilizar este proceso.
A continuación, revise la siguiente presentación:
5.2. Estadística descriptiva
Veremos las funciones clásicas para obtener los estadísticos paramétricos y no-paramétricos que describan una muestra. Así, también, cómo calcular estos estadísticos para múltiples columnas (variables) simultáneamente, automatizando este engorroso proceso.
Para reforzar este tema, revise la siguiente presentación:
Así mismo, visualice el video que se muestra a continuación:
5.3. Estadística inferencial
Aprenderemos acerca de las funciones que nos ayudarán a ejecutar análisis estadísticos paramétricos (t-Student, ANOVA) y no-paramétricos (chi-cuadrada, Kruskall-Wallis, Friedman) en sus versiones pareadas u. En general, este proceso es sencillo, basta con conocer el nombre del análisis para encontrar su función. Lo que puede resultar un poco complejo es conocer cómo ingresar los datos (argumentos de la función) para que R reconozca la variable dependiente e independiente de manera apropiada. También revisaremos, con detalle, la impresión de resultados en pantalla y su interpretación. Algunas funciones necesitarán de un paso complementario con la función summary(), para extraer los resultados estadísticos completos. Pondremos particular atención en la inclusión del aspecto de interacción entre variables en la ANOVA y el cálculo de pruebas post-hoc.
Revise la presentación que se muestra a continuación:
Ahora, se sugiere el análisis del siguiente video:
5.4. Modelos lineales
Los modelos lineales son una herramienta estadística fundamental para evaluar la relación entre variables numéricas continuas. En esta sección revisaremos cómo construir un modelo lineal sencillo con la función lm(), así como a interpretar el resultado estadístico, incluyendo la pendiente, ordenada al origen y los valores de R y R-cuadrada. También veremos cómo revisar los gráficos diagnósticos de un modelo en donde podemos evaluar la distribución de residuales (la distancia entre los puntos y la línea de regresión que resulta del modelo), los gráficos QQ y gráficos de distancia de Cook. La revisión de gráficos diagnósticos es vital para asegurarnos de que nuestro modelo es confiable y no el resultado de unos cuantos valores atípicos que tengan una influencia desproporcionada sobre el modelo. Adicionalmente, realizaremos regresiones lineales múltiples. Paso a paso, revisaremos la forma de evaluar, de manera estadística, cómo la adición modifica los resultados de una regresión múltiple. También veremos, en el caso de que una adición no contribuya a la capacidad explicativa de un modelo, cómo justificar la remoción de variables en un modelo. Finalmente, aprenderemos a automatizar la elaboración de un modelo, mediante el uso de modelos saturados con el operador punto y la función step().
Para reforzar este tema, revise la siguiente presentación; en ella, para trabajar el tema de Modelos, requiere de un conjunto de datos que puede descargar en el siguiente enlace:
A continuación, visualice el siguiente video:
5.5. GLM
Por medio de los modelos lineales generalizados (GLM, por sus siglas en inglés) es posible realizar modelos lineales con un mayor número de variables. En éstos podemos especificar la naturaleza de la variable de respuesta mediante la “función liga” (que se especifica mediante el parámetro o argumento link=). Esto nos permite, por ejemplo, ejecutar regresiones binomiales. Revisaremos cuidadosamente el resultado de estas funciones y la notación con la que R muestra los resultados de variables predictoras continuas y categóricas.
Para ello, revise la siguiente presentación:
Ahora, se presenta el siguiente video:
5.6. GLMM
Los modelos lineales generalizados mixtos (GLMM, por sus siglas en inglés) nos permiten realizar análisis de modelos lineales que contienen medidas repetidas mediante la adición del factor aleatorio. Este factor incluye la identificación de cada individuo y/o grupo que lo incluye para especificar que ciertas variables fueron evaluadas más de una vez sobre el mismo elemento de medición. Cuando usamos este tipo de modelos, los resultados incluyen métricas de este factor aleatorio que nos da información sobre la variación individual y/o grupal.
Revise la presentación que se muestra a continuación:
Así mismo, se sugiere el análisis del siguiente video:
5.7. Componentes principales
En esta sección revisaremos, brevemente, la biblioteca que nos permite hacer análisis de componentes principales (PCA, por sus siglas en inglés). Cuando tenemos bases de datos que incluyen un gran número de variables para describir a cada individuo, la estadística puede ser complicada. Imagine si alguien tuviera 20 o 30 características sobre cada alumno del curso para un hipotético estudio sobre desempeño académico. Tendría que hacer estadística sobre cada una de estas variables y, sin embargo, es posible que muchas sean repetitivas (nacionalidad) o no nos den información (estado civil). Para solucionar este tipo de problemas, podemos usar análisis que nos ayuden a reducir el número de variables; con el PCA es posible reducirlo, resumiéndolas en “componentes”. Paso a paso, veremos cómo ejecutar un PCA, incluyendo cómo juzgar el número de componentes adecuado, cómo graficar la relación entre componentes y cómo visualizar los agrupamientos de puntos, según algunas variables categóricas. Para ello, usaremos el ejemplo que incluye la biblioteca FactoMineR y el conjunto de datos decathlon que contiene el desempeño de varios decatletas durante las competiciones de las Olimpiadas y el Décastar.
Revise la siguiente presentación:
5.8. Clustering (agrupamiento)
En esta sección revisaremos brevemente cómo realizar análisis de agrupamiento. Este tipo de análisis nos permite observar si es posible que las características de una serie de individuos sean agrupadas espacialmente en clusters (agregados) visibles. Existen varios métodos para efectuar este tipo de análisis, cada uno con sus ventajas y desventajas. Con ejemplos, ilustraremos cómo llevarlos a cabo, analizaremos las estadísticas que se producen y las formas de visualización que cada biblioteca ofrece.
Para reforzar el tema anterior, revise la siguiente presentación:
5.9. Output (salida)
Una vez preparado y revisado el código que procesa y analiza nuestros datos, el último paso consiste en ajustar el formato con el que presentamos nuestros resultados. Esto le permitirá producir tablas, gráficos o presentaciones de calidad y estéticamente atractivos, ya sea para incluir en sus escritos o para publicar en páginas de internet. En esta sección encontrará algunos ejemplos de formatos de salida.
Finalmente, revise la siguiente presentación:
Para evaluar sus aprendizajes acerca del Tema V. Estadística, diríjase a la sección de Actividades e ingrese a la Actividad 6 y al Foro del Tema V, atendiendo las indicaciones para su realización.
Descripción:
Los ejercicios de esta actividad requieren que aplique e integre las habilidades adquiridas en las actividades previas, particularmente las relacionadas con el manejo de datos. Sin embargo, el objetivo central es que practique hacer estadística descriptiva (medidas de tendencia central y dispersión), estadística inferencial (no-paramétrica y paramétrica, modelos lineales, modelos lineales generalizados, modelos lineales generalizados mixtos) y técnicas de agrupación.
Indicaciones
Realizar los ejercicios solicitados para efectuar la estadística descriptiva, inferencial o técnicas de agrupamiento a partir de los conjuntos de datos indicados.
Ejercicios:
5.2.1 Estadística inferencial. Abrir
5.3.1 Modelos. Abrir
5.4.1 GLM. Abrir
5.5.1 GLMM. Abrir
5.6.1 Componentes principales. Abrir
5.7.1 Clustering (agrupamiento). Abrir
Criterios de desempeño:
Lineamientos de entrega:
Descripción:
Criterios de desempeño:
Lineamientos de entrega:
Crawley, M. J. (2013). The R Book (2a. ed.). Singapore: Wiley. https://www.cs.upc.edu/~robert/teaching/estadistica/TheRBook.pdf
Holmes, S. & Huber, W. (2019). Modern statistics for modern biology (1a. ed.). Cambridge University Press. https://web.stanford.edu/class/bios221/book/
Irizarry, R. A. & Love, M. I. (2021). Data Analysis for the Life Sciences. Leanpub. https://leanpub.com/dataanalysisforthelifesciences
Ismay, C. & Kim, A. Y. (2019). Statistical Inference via Data Science: A ModernDive into R and the Tidyverse (1a. ed.). Chapman and Hall/CRC. https://moderndive.com/