Herramientas para el análisis estadístico de datos biológicos en R

Abstract

Este libro busca ser una guía práctica que sirva a estudiantes de biología y ciencias naturales para aprender a manejar datos y entender los fundamentos de los modelos estadísticos empleados con frecuencia en su quehacer profesional. La decisión del material contenido en este libro la tomamos respondiendo a la pregunta: ¿qué herramientas y conceptos creemos que necesita saber alguien que estudia biología, para poder realizar su trabajo de grado de forma eficiente? Por lo tanto, hemos minimizado los detalles de tópicos que consideramos no son esenciales para estudiantes de pregrado y hemos omitido completamente cualquier demostración matemática. También hemos incluido simulaciones que ayudan a explicar y visualizar los resultados presentados, además de brindarle al estudiante la oportunidad de mejorar sus habilidades básicas de programación. Hemos incorporado una sección relativamente extensa donde ilustramos cómo crear gráficos en R, que son comúnmente usados en revistas científicas, con la calidad necesaria para reproducirlos en sus propios artículos científicos. Por otro lado, el enfoque tradicional para aprender a tomar decisiones con base en evidencia estadística, parece un laberinto que el estudiante debe navegar con el fin de seleccionar el intervalo de confianza o la prueba de hipótesis correcta. Una vez encontrada la herramienta adecuada para inferir, el estudiante debe utilizar fórmulas, que aunque sencillas, en ocasiones dejan al estudiante sin entender la idea central de la inferencia estadística. Es por eso, que en este libro nos enfocamos en usar métodos de simulación, que en nuestra opinión permiten entender los conceptos básicos de una forma natural, además de evitar tener que preocuparnos por los requerimientos teóricos del enfoque tradicional.

Type
Publication
Editorial UPTC

Más información

A continuación se encuentran los conjuntos de datos y el código utilizados en el libro. Además, se encuentran los errrores encontrados a la fecha.

Datos

Todos los datos se encuentran en el archivo zip: Datos. Si solo se desea accesar un archivo en particular, se pueden accesar por su nombre. La dirección para cada uno de los siguientes archivos inicia con https://alexrojas.netlify.app/Data/Bio/.

Código

En lugar de la librería reshape2, se recomienda ahora el uso de la librería tidyr, como en los siguientes bloques de código:

Primer bloque de código p. 31

Sat10Largo = Sat10 %>% select(-color,-espina) %>%
  pivot_longer( cols = c(satelites, y, peso, ancho),
                names_to = "variable")

Primer bloque de código p. 34

Herradura %>% pivot_longer( cols = c(satelites, y, peso, ancho),
                   names_to = "VariablesNumericas") %>%
  group_by(VariablesNumericas) %>%
  summarize(Promedio = mean(value), DesvEst = sd(value), Mediana = median(value))

Segundo bloque de código p. 38

gariepinusIG %>%
  drop_na(Cambio) %>%
  group_by(Cambio, socialtrt) %>%
  summarize(frec = n()) %>%
  group_by(socialtrt) %>%
  mutate(prop = frec/sum(frec)) %>%
  select(-frec) %>%
  pivot_wider(names_from = Cambio, values_from = prop)

Finalmente, parte de los blques de código también se han escrito en Python:

Errata

Gracias a Gustavo A. Reyes por encontrar varios de los errores en los Capítulos I y II descritos a continuación:

Capítulo I

  • p. 10. Segundo párrafo después del código. En lugar de “El cuarto panel, el superior derecho,…”, debe ser “El cuarto panel, el superior izquierdo,…”
  • p. 25. Cuarta línea del segundo párrafo. “individuos”, no “individuas”
  • p. 36. Ejemplo 1.16, última palabra de la tercera línea. En lugar de “contabilizando”, debe ser “contabilizado”.

Capítulo II

  • p. 56. Sexta línea. Debe ser “aumentamos”, en lugar de “disminuimos”. Es decir, si se quiere más transparecia, se debe disminuir el valor de alpha
  • p. 56. Ejemplo 2.6. Al definir la variable Depredacion del conjunto de datos Fundulus, se utilizaron las etiquetas Si y No. Pero, se debe usar y No para que la Tabla 2.3 y las figuras 2.10, 2.11 y 2.12 tengan el nombre adecuado en las etiquetas. El siguiente es el código:
Fundulus = data.frame(Infeccion = gl(3, 2, labels = etiquetas),
                      Depredacion = gl(2, 1, 6, c('Sí', 'No')),
                      Frec = c(1, 49, 10, 35, 37, 9))

Capítulo III

  • p. 118. Después de la Definición 3.3, la frase “donde los símbolos + y - representan el resultado” está repetida.
  • p. 122. Ejemplo 3.15 Los cálculos de los valores predictivos positivo y negativo están mal calculados. A continuación se muestra el cálculo correcto. Para empezar, incluimos la tabla de contingencia para la condición verdadera y los posibles resultados de la prueba, como en la Tabla 3.4 del libro, para los datos de este ejemplo:
Resultadoprueba rápida
VIHNegativoPositivoTotal
No12181291347
4166170
Total12222951517

El valor predictivo positivo es entonces

$$\text{PV}+ = \frac{166}{166 + 129} \approx 0.563,$$

luego un individuo que obtenga un resultado positivo tiene una probabilidad del 0.563 de estar infectado por el VIH. Por otro lado, el valor predictivo negativo es

$$\text{PV}- = \frac{1218}{1218 + 4} \approx 0.997,$$

luego un individuo que obtenga un resultado negativo tiene una probabilidad del 0.997 de no estar infectado verdaderamente por el VIH.

Alex L Rojas
Alex L Rojas
Associate Professor of Statistics

My main interest is the conservation of Andean forest.

Related