Taller AdminDataPy
Taller 4: "AdminDataPy" en Google Colab
Objetivo: Leer, explorar, limpiar y visualizar datos almacenados en un archivo CSV utilizando la biblioteca pandas y generar gráficos con matplotlib.
Paso 1: Cargar los datos
import pandas as pd
# Subida manual del archivo
from google.colab import files
uploaded = files.upload()
# Leer el CSV (cambia el nombre por el de tu archivo)
df = pd.read_csv("datos.csv")
df.head()
Paso 2: Limpieza básica de datos
# Verificar valores nulos
print(df.isnull().sum())
# Eliminar filas con valores nulos
df = df.dropna()
# Eliminar columnas innecesarias (opcional)
# df = df.drop(columns=['ColumnaInnecesaria'])
Paso 3: Estadísticas descriptivas
# Estadísticas generales
print(df.describe())
# Conteo de valores únicos
print(df.nunique())
# Filtrar por condiciones
print(df[df["Ventas"] > 10000])
Paso 4: Visualización de datos
import matplotlib.pyplot as plt
# Gráfico de barras: Ventas por categoría
df.groupby("Categoría")["Ventas"].sum().plot(kind='bar')
plt.title("Ventas por Categoría")
plt.ylabel("Total Ventas")
plt.xlabel("Categoría")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
Paso 5: Funciones útiles para exploración
# Buscar registros por palabra clave
def buscar_por_palabra(columna, palabra):
return df[df[columna].str.contains(palabra, case=False)]
# Ejemplo:
buscar_por_palabra("Producto", "Laptop")
Paso 6: Guardar los datos procesados
# Guardar en un nuevo CSV
df.to_csv("datos_limpios.csv", index=False)
# Descargar el archivo
from google.colab import files
files.download("datos_limpios.csv")
Actividad final del estudiante
- Cargar un archivo CSV propio o proporcionado.
- Realizar limpieza y filtrado de datos.
- Generar al menos 2 visualizaciones.
- Exportar y descargar los datos limpios.
- Reflexionar: ¿Qué decisiones se podrían tomar con base en los datos?
Comentarios
Publicar un comentario