Ma'lumotlarni tahlil qilishda vaqtning 80% ini ma'lumotlarni tozalashga sarflaymiz.

CSV fayl o'qish

import pandas as pd

df = pd.read_csv('data.csv')
print(df.shape)      # qatorlar va ustunlar soni
print(df.info())     # ma'lumot turlari
print(df.isnull().sum())  # bo'sh qiymatlar

Bo'sh qiymatlarni boshqarish

# Bo'sh qiymatlarni o'chirish
df.dropna(inplace=True)

# O'rtacha qiymat bilan to'ldirish
df['yosh'].fillna(df['yosh'].mean(), inplace=True)

# Muayyan qiymat bilan to'ldirish
df['shahar'].fillna('Noma'lum', inplace=True)

Dublikatlarni o'chirish

print(df.duplicated().sum())
df.drop_duplicates(inplace=True)

Ma'lumot turlarini o'zgartirish

df['sana'] = pd.to_datetime(df['sana'])
df['narx'] = df['narx'].astype(float)

Noto'g'ri qiymatlarni aniqlash

# Manfiy bo'lmasligi kerak bo'lgan ustun
print(df[df['narx'] < 0])

# Oraliqdan tashqari qiymatlar
print(df[(df['yosh'] < 0) | (df['yosh'] > 120)])

Ustun nomlarini o'zgartirish

df.rename(columns={'Name': 'ism', 'Age': 'yosh'}, inplace=True)
df.columns = df.columns.str.lower().str.replace(' ', '_')