Ma'lumotlarni tahlil qilishda vaqtning 80% ini ma'lumotlarni tozalashga sarflaymiz.
CSV fayl o'qish
import pandas as pd
df = pd.read_csv('data.csv')
print(df.shape) # qatorlar va ustunlar soni
print(df.info()) # ma'lumot turlari
print(df.isnull().sum()) # bo'sh qiymatlar
Bo'sh qiymatlarni boshqarish
# Bo'sh qiymatlarni o'chirish
df.dropna(inplace=True)
# O'rtacha qiymat bilan to'ldirish
df['yosh'].fillna(df['yosh'].mean(), inplace=True)
# Muayyan qiymat bilan to'ldirish
df['shahar'].fillna('Noma'lum', inplace=True)
Dublikatlarni o'chirish
print(df.duplicated().sum())
df.drop_duplicates(inplace=True)
Ma'lumot turlarini o'zgartirish
df['sana'] = pd.to_datetime(df['sana'])
df['narx'] = df['narx'].astype(float)
Noto'g'ri qiymatlarni aniqlash
# Manfiy bo'lmasligi kerak bo'lgan ustun
print(df[df['narx'] < 0])
# Oraliqdan tashqari qiymatlar
print(df[(df['yosh'] < 0) | (df['yosh'] > 120)])
Ustun nomlarini o'zgartirish
df.rename(columns={'Name': 'ism', 'Age': 'yosh'}, inplace=True)
df.columns = df.columns.str.lower().str.replace(' ', '_')