# Análisis Exploratorio de Datos 
(EDA: Exploratory Data Analysis)

Objetivos del EDA son: 
* detectar errores de digitación o de manipulación de datos;
* identificar observaciones anómalas;
* descubrir estructuras subyacentes y revelar tendencias o patrones; y
* desarrollar modelos estadísticos y chequear supuestos.

Podemos explorar los datos de diferentes maneras. Los dos métodos principales de exploración son: 
* el cálculo de estadísticas descriptivas (buscan caracterizar la distribución de los datos),
* y la generación de gráficas, (buscan revelar formas o patrones en los datos).

Dentro de las gráficas más usadas están: diagramas de caja, histogramas y diagramas de dispersión.

Es importante que nuestras gráficas sean efectivas y sigan los siguientes principios básicos: 
1. muestren los datos, 
1. representen magnitudes honestamente, 
1. muestren elementos gráficos claramente y minimicen confusión, y 
1. faciliten ver los patrones subyacentes en los datos.

## Gráficas

### Gráficas para una variable

* Para variables categóricas: diagrama de barras
* Para variables cuantitativas: el histograma, el diagrama de caja y bigotes

#### Diagrama de barras

Ilustra la distribución de frecuencias de una variable categórica y tiene las siguientes características: 
* la base es el cero;
* el espacio entre las barras enfatiza la altura; y
* el orden de las categorías es usualmente determinado por su frecuencia, a menos que la variable categórica sea ordinal (Ejemplo Máximo Nivel de Educación Alcanzado, con categorías: analfabeta, primaria, secundaria, técnico, profesional, posgrado. Al graficar el diagrama de barras, las barras deben aparecer en este orden, pues hay un orden implícito de las categorías).

In [None]:
import numpy as np
import matplotlib.pyplot as plt 

# Creando el conjunto de datos
datos = {'Analfabeta':6, 'Primaria':15, 'Secundaria':137, 'Técnico':98, 'Profesional':89, 'Posgrado':24}
nivel = list(datos.keys())
frec = list(datos.values())
 
fig = plt.figure(figsize = (10, 5))

# Creando el diagrama de barras 
plt.bar(nivel, frec, color ='royalblue', width = 0.4)

plt.xlabel("Máximo nivel de educación alcanzado")
plt.ylabel("Frecuencia")
plt.title("Distribución del máximo nivel de educación alcanzado de los empleados de una empresa")
plt.show()

In [3]:
# Importando la base de datos Herradura
import pandas as pd
direccionPagina = 'https://alexrojas.netlify.app/Data/Bio/'

# Lectura de la base de datos
Herradura = pd.read_fwf(direccionPagina+'Cangrejos.dat')

In [None]:
# Taller
# Con la distribución de frecuencias de la variable 'y' de la base de datos Herradura, construya el diagrama de barras de dicha variable.
# Escriba las etiquetas apropiadas para los ejes horizontal y vertical, y el título del diagrama de barras.
# Identifique la moda de su variable.

#### Histograma

Ilustra la distribución de una variable cuantitativa. Con un histograma podemos: 
* visualizar la forma de la distribución de los datos cuantitativos;
* obtener una idea del centro de los datos, su dispersión e
* identificar valores anómalos.

Para construir un histograma:  
* se divide el rango observado de la variable en intervalos consecutivos de igual longitud, y
* se usan barras para presentar la frecuencia de observaciones en cada intervalo.

In [None]:
Herradura['weight'].hist()
plt.xlabel("Peso")
plt.ylabel("Frecuencia")
plt.title("Distribución del peso de cangrejos herradura")
plt.show()

In [None]:
# Taller
# Cuál es la forma de la distribución?
# Observando el histograma, ubique la media y la mediana.
# En qué intervalo está la moda? Ubique el extremo inferior y superior de dicho intervalo.
# Hay valores anómalos?

In [None]:
# Forma alterna de obtener el histograma
Herradura.plot(y = 'weight',kind = 'hist')

In [None]:
# Taller
# Adicione etiquetas de los ejes horizontal y vertical, y el título de este histograma.

In [None]:
Herradura['width'].hist()
# Taller
# Adicione etiquetas de los ejes horizontal y vertical, y el título de este histograma.
# Cuál es la forma de la distribución?
# Observando el histograma, ubique la media y la mediana.
# En qué intervalo está la moda? Ubique el extremo inferior y superior de dicho intervalo.
# Hay valores anómalos?

#### Diagrama de caja y bigotes

También ilustra la distribución de una variable cuantitativa, representando gráficamente el resumen de los cinco números: Mín, Q1, Q2, Q3, Máx.

Identifica observaciones anómalas usando una cota inferior y una cota superior:
* Cota inferior: Q1 - 1.5(Q3-Q1)
* Cota superior: Q3 + 1.5(Q3-Q1)

Cualquier dato por debajo de la cota inferior o cualquier dato por encima de la cota superior es identificado como anómalo o inusual.

In [None]:
Herradura.plot(y = 'weight',kind = 'box')
plt.ylabel("Peso")
plt.title("Diagrama de caja del peso de cangrejos herradura")
plt.show()

In [None]:
# Taller
# Cuál es la forma de la distribución?
# Observando el diagrama de caja, ubique el resumen de los cinco números.
# Hay valores anómalos por debajo de la cota inferior?
# Hay valores anómalos por encima de la cota superior?

In [None]:
# Taller
# Obtenga el diagrama de caja de la variable width.
# Adicione etiqueta del ejes vertical y el título.
# Cuál es la forma de la distribución?
# Observando el diagrama de caja, ubique el resumen de los cinco números.
# Hay valores anómalos por debajo de la cota inferior?
# Hay valores anómalos por encima de la cota superior?

### Gráficas para varias variables

#### Dos variables categóricas: Diagramas de barras agrupadas 

In [None]:
# Creación de la base de dato bd con las frecuencias de las variables 
# Nivel infección de los peces y Depredación por aves
Si = [1,10,37] # Depredación por aves presente
No = [49,35,9] # Depredación por aves ausente
n=['Sin', 'Ligera', 'Alta'] # Nivel de infección de los peces
bd = pd.DataFrame({'Sí': Si,'No': No}, index=n)
bd

In [None]:
# Diagrama de barras agrupadas
bd.plot.bar(rot=0)
plt.xlabel("Nivel de infección de los peces")
plt.ylabel("Frecuencia")
plt.title("Distribución de la depredación por aves por nivel de infección")
plt.show()

In [None]:
# Taller
# Cuál es la moda cuando la depredación por aves está presente?
# Cuál es la moda cuando no hay depredación por aves?

In [None]:
# Diagrama de barras agrupadas para dos variables en la base de datos Herradura

import seaborn as sns
sns.countplot(data=Herradura, x='y', hue='color')
plt.xlabel("y")
plt.ylabel("Frecuencia")
plt.title("Distribución de color por cada categoría de y")
plt.show()

#### Una variable cuantitativa vs. una variable categórica: Diagramas de cajas lado a lado

In [None]:
Herradura.plot.box(column="weight", by='y')
plt.xlabel("Y")
plt.ylabel("Peso")
plt.title("Diagramas de caja del peso de cangrejos herradura por la variable Y")
plt.show()

In [None]:
# Taller
# De los grupos de la variable Y, cuál tiene mayor centro?
# Según el rango intercuartílico, cuál grupo tiene mayor variabilidad?
# Hay observaciones anómalas en ambos grupos?

In [13]:
# Usando la librería seaborn
# Tomado de: https://seaborn.pydata.org/examples/grouped_boxplot.html

import seaborn as sns
sns.set_theme(style="ticks", palette="pastel")

# Load the example tips dataset
tips = sns.load_dataset("tips")
tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
dtypes: category(4), float64(2), int64(1)
memory usage: 7.4 KB


In [None]:
# Draw a nested boxplot to show bills by day and time
sns.boxplot(x="day", y="total_bill",
            hue="smoker", palette=["m", "g"],
            data=tips)
sns.despine(offset=10, trim=True)
plt.xlabel("Día")
plt.ylabel("Total de la cuenta")
plt.title("Distribución del total de cuenta pagado por clientes de un restaurante  desde el jueves hasta el domingo")
plt.show()

In [None]:
# Taller
# Usando la mediana como medida para describir el centro de la distribución, 
# * cuál día es mayor el total de la cuenta para quienes no fuman?
# * cuál día es mayor el total de la cuenta para quienes fuman?
# Usando el rango como medida para describir la variabilidad de la distribución, 
# * cuándo se observa la mayor dispersión (día y grupo)?
# * cuándo se observa la menor dispersión (día y grupo)?

In [None]:
# Taller
# Obtenga los diagramas de caja lado a lado de la variable 'width' por la variable 'color'
# De los grupos de la variable 'color', cuál tiene mayor centro?
# Según el rango intercuartílico, cuál grupo tiene mayor variabilidad?
# Hay observaciones anómalas en todos los grupos?

#### Dos variables cuantitativas: Diagrama de dispersión

In [None]:
Herradura.plot(x = 'weight',y='width',kind = 'scatter')
plt.xlabel("Peso")
plt.ylabel("Ancho")
plt.title("Diagrama de dispersión del peso y ancho de cangrejos herradura")
plt.show()

In [None]:
# Taller
# Podría describirse la relación entre estas dos variable con un patrón lineal?
# Hay observaciones inusuales?

In [None]:
# Usando la la librería seaborn
# Otra forma de obtener un diagrama de dispersión con histogramas de las distribución marginal de cada variable, 
# y la recta de regresión lineal simple
# Nuevamente usando la base de datos tip de la librería seaborn cargada en un ejemplo anterior
# Tomado de: https://seaborn.pydata.org/examples/regression_marginals.html

sns.set_theme(style="darkgrid")
g = sns.jointplot(x="total_bill", y="tip", data=tips,
                  kind="reg", truncate=False,
                  xlim=(0, 60), ylim=(0, 12),
                  color="m", height=7)
plt.xlabel("Total de la cuenta")
plt.ylabel("Propina")
plt.show()

In [None]:
# Taller
# Obtenga el diagrama de dispersión para el peso y ancho de cangrejos herradura usando la librería seaborn