Este libro busca ser una guía práctica que sirva a estudiantes de biología y ciencias naturales para aprender a manejar datos y entender los fundamentos de los modelos estadísticos empleados con frecuencia en su quehacer profesional. La decisión del material contenido en este libro la tomamos respondiendo a la pregunta: ¿qué herramientas y conceptos creemos que necesita saber alguien que estudia biología, para poder realizar su trabajo de grado de forma eficiente? Por lo tanto, hemos minimizado los detalles de tópicos que consideramos no son esenciales para estudiantes de pregrado y hemos omitido completamente cualquier demostración matemática. También hemos incluido simulaciones que ayudan a explicar y visualizar los resultados presentados, además de brindarle al estudiante la oportunidad de mejorar sus habilidades básicas de programación. Hemos incorporado una sección relativamente extensa donde ilustramos cómo crear gráficos en R, que son comúnmente usados en revistas científicas, con la calidad necesaria para reproducirlos en sus propios artículos científicos. Por otro lado, el enfoque tradicional para aprender a tomar decisiones con base en evidencia estadística, parece un laberinto que el estudiante debe navegar con el fin de seleccionar el intervalo de confianza o la prueba de hipótesis correcta. Una vez encontrada la herramienta adecuada para inferir, el estudiante debe utilizar fórmulas, que aunque sencillas, en ocasiones dejan al estudiante sin entender la idea central de la inferencia estadística. Es por eso, que en este libro nos enfocamos en usar métodos de simulación, que en nuestra opinión permiten entender los conceptos básicos de una forma natural, además de evitar tener que preocuparnos por los requerimientos teóricos del enfoque tradicional.
A continuación se encuentran los conjuntos de datos y el código utilizados en el libro. Además, se encuentran los errrores encontrados a la fecha.
Todos los datos se encuentran en el archivo zip:
Datos. Si solo se desea accesar un archivo en particular, se pueden accesar por su nombre. La dirección para cada uno de los siguientes archivos inicia con https://alexrojas.netlify.app/Data/Bio/
.
En lugar de la librería reshape2
, se recomienda ahora el uso de la librería tidyr
, como en los siguientes bloques de código:
Sat10Largo = Sat10 %>% select(-color,-espina) %>%
pivot_longer( cols = c(satelites, y, peso, ancho),
names_to = "variable")
Herradura %>% pivot_longer( cols = c(satelites, y, peso, ancho),
names_to = "VariablesNumericas") %>%
group_by(VariablesNumericas) %>%
summarize(Promedio = mean(value), DesvEst = sd(value), Mediana = median(value))
gariepinusIG %>%
drop_na(Cambio) %>%
group_by(Cambio, socialtrt) %>%
summarize(frec = n()) %>%
group_by(socialtrt) %>%
mutate(prop = frec/sum(frec)) %>%
select(-frec) %>%
pivot_wider(names_from = Cambio, values_from = prop)
Finalmente, parte de los blques de código también se han escrito en Python
:
Gracias a Gustavo A. Reyes por encontrar varios de los errores en los Capítulos I y II descritos a continuación:
alpha
Depredacion
del conjunto de datos Fundulus
, se utilizaron las etiquetas Si
y No
. Pero, se debe usar Sí
y No
para que la Tabla 2.3 y las figuras 2.10, 2.11 y 2.12 tengan el nombre adecuado en las etiquetas. El siguiente es el código:Fundulus = data.frame(Infeccion = gl(3, 2, labels = etiquetas),
Depredacion = gl(2, 1, 6, c('Sí', 'No')),
Frec = c(1, 49, 10, 35, 37, 9))
Resultado | prueba rápida | ||
---|---|---|---|
VIH | Negativo | Positivo | Total |
No | 1218 | 129 | 1347 |
Sí | 4 | 166 | 170 |
Total | 1222 | 295 | 1517 |
El valor predictivo positivo es entonces
$$\text{PV}+ = \frac{166}{166 + 129} \approx 0.563,$$
luego un individuo que obtenga un resultado positivo tiene una probabilidad del 0.563 de estar infectado por el VIH. Por otro lado, el valor predictivo negativo es
$$\text{PV}- = \frac{1218}{1218 + 4} \approx 0.997,$$
luego un individuo que obtenga un resultado negativo tiene una probabilidad del 0.997 de no estar infectado verdaderamente por el VIH.