Contenido

5. Estadística.

[1]

Al fin llegamos a la parte más dulce y desafiante del curso. Dulce, porque una vez procesados los datos y organizados en los formatos requeridos, correr los análisis estadísticos llega a ser cuestión de segundos. El desafío radica en comprender los fundamentos teóricos de las operaciones matemáticas que aplicamos, así como en interpretar los resultados que obtenemos. En esta sección haremos una concisa revisión de los métodos comúnmente empleados para efectuar estadística inferencial, así como de las técnicas de agrupación que permiten identificar y agrupar casos de acuerdo con el grado de similitud que comparten.

5.1. Preprocesamiento de datos

Una vez colectados los datos, inicie el preprocesamiento (preparación para el análisis). En esta sección revisaremos bibliotecas que nos pueden ayudar a homogeneizar datos complejos, tales como las fechas o los tiempos, lidiar con datos faltantes, ya sea para eliminarlos o imputarlos, entre otros hábitos y técnicas que nos permitan agilizar este proceso.

A continuación, revise la siguiente presentación:

5.2. Estadística descriptiva

Veremos las funciones clásicas para obtener los estadísticos paramétricos y no-paramétricos que describan una muestra. Así, también, cómo calcular estos estadísticos para múltiples columnas (variables) simultáneamente, automatizando este engorroso proceso.

Para reforzar este tema, revise la siguiente presentación:


Así mismo, visualice el video que se muestra a continuación:

Estadística y Manejo de Datos con R UV. (2021, agosto 16). Clase 5 1 estadistica descriptiva small [Video]. YouTube.

5.3. Estadística inferencial

Aprenderemos acerca de las funciones que nos ayudarán a ejecutar análisis estadísticos paramétricos (t-Student, ANOVA) y no-paramétricos (chi-cuadrada, Kruskall-Wallis, Friedman) en sus versiones pareadas u. En general, este proceso es sencillo, basta con conocer el nombre del análisis para encontrar su función. Lo que puede resultar un poco complejo es conocer cómo ingresar los datos (argumentos de la función) para que R reconozca la variable dependiente e independiente de manera apropiada. También revisaremos, con detalle, la impresión de resultados en pantalla y su interpretación. Algunas funciones necesitarán de un paso complementario con la función summary(), para extraer los resultados estadísticos completos. Pondremos particular atención en la inclusión del aspecto de interacción entre variables en la ANOVA y el cálculo de pruebas post-hoc.

Revise la presentación que se muestra a continuación:


Ahora, se sugiere el análisis del siguiente video:

Estadística y Manejo de Datos con R UV. (2021, agosto 16). Clase 5 2 estadistica inferencial small [Video]. YouTube.

5.4. Modelos lineales

Los modelos lineales son una herramienta estadística fundamental para evaluar la relación entre variables numéricas continuas. En esta sección revisaremos cómo construir un modelo lineal sencillo con la función lm(), así como a interpretar el resultado estadístico, incluyendo la pendiente, ordenada al origen y los valores de R y R-cuadrada. También veremos cómo revisar los gráficos diagnósticos de un modelo en donde podemos evaluar la distribución de residuales (la distancia entre los puntos y la línea de regresión que resulta del modelo), los gráficos QQ y gráficos de distancia de Cook. La revisión de gráficos diagnósticos es vital para asegurarnos de que nuestro modelo es confiable y no el resultado de unos cuantos valores atípicos que tengan una influencia desproporcionada sobre el modelo. Adicionalmente, realizaremos regresiones lineales múltiples. Paso a paso, revisaremos la forma de evaluar, de manera estadística, cómo la adición modifica los resultados de una regresión múltiple. También veremos, en el caso de que una adición no contribuya a la capacidad explicativa de un modelo, cómo justificar la remoción de variables en un modelo. Finalmente, aprenderemos a automatizar la elaboración de un modelo, mediante el uso de modelos saturados con el operador punto y la función step().

Para reforzar este tema, revise la siguiente presentación; en ella, para trabajar el tema de Modelos, requiere de un conjunto de datos que puede descargar en el siguiente enlace:


A continuación, visualice el siguiente video:

Estadística y Manejo de Datos con R UV. (2021, agosto 16). Clase 5 3 regresion small [Video]. YouTube.

5.5. GLM

Por medio de los modelos lineales generalizados (GLM, por sus siglas en inglés) es posible realizar modelos lineales con un mayor número de variables. En éstos podemos especificar la naturaleza de la variable de respuesta mediante la “función liga” (que se especifica mediante el parámetro o argumento link=). Esto nos permite, por ejemplo, ejecutar regresiones binomiales. Revisaremos cuidadosamente el resultado de estas funciones y la notación con la que R muestra los resultados de variables predictoras continuas y categóricas.

Para ello, revise la siguiente presentación:


Ahora, se presenta el siguiente video:

Estadística y Manejo de Datos con R UV. (2021, agosto 16). Clase 5 4 GLMs small [Video]. YouTube.

5.6. GLMM

Los modelos lineales generalizados mixtos (GLMM, por sus siglas en inglés) nos permiten realizar análisis de modelos lineales que contienen medidas repetidas mediante la adición del factor aleatorio. Este factor incluye la identificación de cada individuo y/o grupo que lo incluye para especificar que ciertas variables fueron evaluadas más de una vez sobre el mismo elemento de medición. Cuando usamos este tipo de modelos, los resultados incluyen métricas de este factor aleatorio que nos da información sobre la variación individual y/o grupal.

Revise la presentación que se muestra a continuación:


Así mismo, se sugiere el análisis del siguiente video:

Estadística y Manejo de Datos con R UV. (2021, agosto 16). Clase 5 5 GLMMs small [Video]. YouTube.

5.7. Componentes principales

En esta sección revisaremos, brevemente, la biblioteca que nos permite hacer análisis de componentes principales (PCA, por sus siglas en inglés). Cuando tenemos bases de datos que incluyen un gran número de variables para describir a cada individuo, la estadística puede ser complicada. Imagine si alguien tuviera 20 o 30 características sobre cada alumno del curso para un hipotético estudio sobre desempeño académico. Tendría que hacer estadística sobre cada una de estas variables y, sin embargo, es posible que muchas sean repetitivas (nacionalidad) o no nos den información (estado civil). Para solucionar este tipo de problemas, podemos usar análisis que nos ayuden a reducir el número de variables; con el PCA es posible reducirlo, resumiéndolas en “componentes”. Paso a paso, veremos cómo ejecutar un PCA, incluyendo cómo juzgar el número de componentes adecuado, cómo graficar la relación entre componentes y cómo visualizar los agrupamientos de puntos, según algunas variables categóricas. Para ello, usaremos el ejemplo que incluye la biblioteca FactoMineR y el conjunto de datos decathlon que contiene el desempeño de varios decatletas durante las competiciones de las Olimpiadas y el Décastar.

Revise la siguiente presentación:

5.8. Clustering (agrupamiento)

En esta sección revisaremos brevemente cómo realizar análisis de agrupamiento. Este tipo de análisis nos permite observar si es posible que las características de una serie de individuos sean agrupadas espacialmente en clusters (agregados) visibles. Existen varios métodos para efectuar este tipo de análisis, cada uno con sus ventajas y desventajas. Con ejemplos, ilustraremos cómo llevarlos a cabo, analizaremos las estadísticas que se producen y las formas de visualización que cada biblioteca ofrece.

Para reforzar el tema anterior, revise la siguiente presentación:

5.9. Output (salida)

Una vez preparado y revisado el código que procesa y analiza nuestros datos, el último paso consiste en ajustar el formato con el que presentamos nuestros resultados. Esto le permitirá producir tablas, gráficos o presentaciones de calidad y estéticamente atractivos, ya sea para incluir en sus escritos o para publicar en páginas de internet. En esta sección encontrará algunos ejemplos de formatos de salida.

Finalmente, revise la siguiente presentación:

Actividad 6. Estadística.

Descripción:

Los ejercicios de esta actividad requieren que aplique e integre las habilidades adquiridas en las actividades previas, particularmente las relacionadas con el manejo de datos. Sin embargo, el objetivo central es que practique hacer estadística descriptiva (medidas de tendencia central y dispersión), estadística inferencial (no-paramétrica y paramétrica, modelos lineales, modelos lineales generalizados, modelos lineales generalizados mixtos) y técnicas de agrupación.

Indicaciones

Realizar los ejercicios solicitados para efectuar la estadística descriptiva, inferencial o técnicas de agrupamiento a partir de los conjuntos de datos indicados.

Ejercicios:

5.2.1 Estadística inferencial. Abrir

5.3.1 Modelos. Abrir

5.4.1 GLM. Abrir

5.5.1 GLMM. Abrir

5.6.1 Componentes principales. Abrir

5.7.1 Clustering (agrupamiento). Abrir

Criterios de desempeño:

  1. Elaboración de scripts con código legible, funcional y bien indentado.
  2. Correcto manejo de datos con paquetería básica o adicional en R.
  3. Cargado de bibliotecas de funciones requeridas para el análisis.
  4. Impresión y discusión de los resultados de los análisis.
  5. Identificación e interpretación de los valores estadísticos que deben reportarse.
  6. Idealmente, obtención de resultados en formatos de salida listos para impresión.

Lineamientos de entrega:

  1. Divida su script en secciones, usando hashtag # al inicio de las líneas que comente. Para conocer ejemplos de scripts revise la Clase 3.0 Scripts, funciones y control de flujo.pdf. Por ejemplo, si va a iniciar la sección en que asigna su directorio de trabajo, puede indicarlo con la línea: # Ajustar directorio de trabajo setwd(“/Usuario/CursoEMDR”) y en las líneas subsecuentes agregue los comandos que correspondan a la solución del ejercicio en turno.
  2. Titule el archivo (*.R) de la siguiente forma: Actividad6_ApellidoPaternoPrimerNombre.R. Ejemplo: Actividad6_CoyotlPedro.R
  3. Envíe su archivo (*.R), a través del apartado de Actividades de la plataforma Eminus, a más tardar en la fecha establecida en el Calendario de entregas.

Foro 5. Estadística.

Descripción:

  1. Este foro estará abierto para acompañarse en el proceso de elaborar los ejercicios que competen a este tema, para compartir dudas o estrategias de cómo resolverlos, así como para participar exponiendo su experiencia y los mensajes que se emitieron al usar el software.
  2. El foro estará abierto sólo hasta la fecha límite indicada.
  3. Recuerde atender a las Reglas para participar en foros de discusión.

Criterios de desempeño:

  1. Compartir y discutir soluciones para las actividades.
  2. Valorar la pertinencia de modificar nuestra estrategia al usar el software.
  3. Sugerir ideas que den pauta a una práctica más funcional del software.

Lineamientos de entrega:

  1. Publique su participación en el Foro del Tema V. Estadística.
  2. Su participación en el foro será en la fecha establecida en el Calendario de entregas. Los foros no concederán prórroga.

Fuentes de Información

Crawley, M. J. (2013). The R Book (2a. ed.). Singapore: Wiley. https://www.cs.upc.edu/~robert/teaching/estadistica/TheRBook.pdf

Holmes, S. & Huber, W. (2019). Modern statistics for modern biology (1a. ed.). Cambridge University Press. https://web.stanford.edu/class/bios221/book/

Irizarry, R. A. & Love, M. I. (2021). Data Analysis for the Life Sciences. Leanpub. https://leanpub.com/dataanalysisforthelifesciences

Ismay, C. & Kim, A. Y. (2019). Statistical Inference via Data Science: A ModernDive into R and the Tidyverse (1a. ed.). Chapman and Hall/CRC. https://moderndive.com/

1 Lukas (2017). Persona Sosteniendo Un Bolígrafo Azul Y Transparente. [Imagen]. Pexels. https://www.pexels.com/es-es/foto/persona-sosteniendo-un-boligrafo-azul-y-transparente-590022/