Data Wrangling (Məlumatın Təmizlənməsi və Formatlanması)

Data Wrangling – Məlumatların Təmizlənməsi və Transformasiyası
Data Wrangling, yəni məlumatların təmizlənməsi və transformasiyası, data analizinin və maşın öyrənməsinin ən mühüm mərhələlərindən biridir. Bu prosesin əsas məqsədi – xam (sırf) məlumatları daha istifadəyə yararlı, təmiz və strukturlaşdırılmış formaya gətirməkdir. Data wrangling, bəzən “data munging” olaraq da adlandırılır və bu mərhələ olmadan əldə edilən nəticələrin etibarlılığı ciddi şəkildə sual altına düşə bilər.
Analitik və məlumat mühəndisliyi proseslərində bu mərhələ həm vaxt baxımından tələbkar, həm də çox detallı və sistematik yanaşma tələb edən bir mərhələdir. Bu bloqda məlumatların təmizlənməsi, süzülməsi, formatlaşdırılması, transformasiyası və uyğunlaşdırılması haqqında ətraflı məlumat verəcəyik. Yazının sonunda praktiki alətlər və resurslar da təqdim olunur.
Data Wrangling nədir və niyə vacibdir?
Data Wrangling, müxtəlif mənbələrdən gələn strukturlaşdırılmış və ya strukturlaşdırılmamış məlumatların təmizlənməsi, dəyişdirilməsi və analiz üçün uyğun vəziyyətə gətirilməsi prosesidir. Bu, məlumatların aşağıdakı mərhələlərdən keçməsini nəzərdə tutur:
- Uyğunsuz dəyərlərin düzəldilməsi
- İtkin məlumatların idarə olunması
- Format problemlərinin həlli
- Məntiqi və statistik baxımdan uyğunsuzluqların aradan qaldırılması
- Kategorik və ədədi dəyişənlərin uyğun çevrilməsi
Məlumatların təmiz və strukturlaşdırılmış formada olması, həm analiz prosesinin düzgün işləməsi, həm də model qurulması zamanı səhvlərin və yanlış qərarların qarşısının alınması üçün olduqca vacibdir. Məsələn, səhv formatda olan tarix dəyişənləri və ya təkrarlanan məlumatlar analiz nəticələrinə mənfi təsir göstərə bilər.

Məlumatların Süzülməsi – Yalnız doğru olan qalmalıdır
Məlumatların süzülməsi, analiz üçün uyğun olmayan qeydlərin çıxarılması prosesidir. Bu, ilk baxışdan sadə görünsə də, əslində məlumatın keyfiyyətinə birbaşa təsir edən kritik mərhələdir.
Bu mərhələdə əsasən aşağıdakı əməliyyatlar aparılır:
- Dublikatların silinməsi – Təkrarlanan məlumat sətirləri analizə mənfi təsir edə bilər. Məsələn, eyni istifadəçinin iki dəfə qeyd olunması.
- Səhv və ya uyğunsuz dəyərlərin çıxarılması – Əhalisi 1 milyard göstərilən bir kənd və ya yaşı -12 olan bir istifadəçi kimi qeyri-real məlumatlar.
- Həddindən artıq fərqli və nadir dəyərlərin təhlil edilməsi – İfrat dəyərlər (outliers) statistik baxımdan təhlil edilməli və lazım olduqda çıxarılmalıdır.
Süzülmə prosesi, məlumat dəstinin ölçüsünü optimallaşdırır və performansı artırır. Bundan əlavə, keyfiyyətsiz məlumatın modeli çaşdırmasının qarşısını alır.
İtkin Məlumatların İdarə Edilməsi
İtkin məlumatlar (missing data), demək olar ki, hər məlumat dəstində rast gəlinən universal bir problemdir. Onların düzgün idarə olunmaması analiz və modellərin nəticələrini tamamilə səhv istiqamətə yönləndirə bilər.
İtkin dəyərlərlə mübarizə üçün bir neçə metod mövcuddur:
- İmpütasiya (doldurma): Ən çox yayılmış üsul, ortalama (mean), median və ya mod dəyərlə əvəzləməkdir.
- Sətir və sütunların silinməsi: Əgər məlumat çox natamamdırsa, bu sətir və ya sütun tamamilə çıxarıla bilər.
- Xüsusi dəyərlə işarələmə: Məsələn, “NA”, “NULL” və ya “0” kimi.
- Model əsaslı doldurma: Daha qabaqcıl yanaşmalar üçün regresiya, KNN, və ya digər maşın öyrənmə metodları ilə əvəzləmə tətbiq oluna bilər.
İtkin məlumatların idarəsi zamanı balansı qorumaq vacibdir – çox məlumat silinsə, analiz üçün kifayət qədər məlumat qalmaya bilər.
Formatın Standartlaşdırılması
Əldə olunan məlumat fərqli formatlarda ola bilər və bu, analiz zamanı çətinlik yaradır. Formatın standartlaşdırılması, məlumatın düzgün tanınması və istifadəsi üçün əsas şərtdir.
Bu mərhələdə edilən əsas əməliyyatlar:
- Tarix və zaman formatlarının tənzimlənməsi: Bəzi sistemlər “DD/MM/YYYY”, digərləri “MM-DD-YYYY” formatı ilə işləyir. Analiz üçün bu, standart formaya salınmalıdır – ən çox istifadə edilən “YYYY-MM-DD” formatıdır.
- Mətn sahələrinin standartlaşdırılması: Məsələn, “Bakı”, “baki”, “Bakı şəhəri” kimi fərqli yazılışların bir formaya salınması.
- Verilənlərin tipi: Tarixlər, mətnlər, ədədi dəyərlər və s. düzgün tanımlanmalıdır. Bəzi hallarda sistem ədədi dəyəri mətn kimi qəbul edə bilər, bu isə əməliyyatlara mane olar.
Transformasiya və Yeni Dəyərlərin Yaradılması
Transformasiya, məlumatı daha istifadəyə yararlı hala gətirmək üçün həyata keçirilən çevirmə və dəyişikliklər toplusudur. Bu mərhələ məlumatın daha dərin təhlilini və modelləşdirilməsini asanlaşdırır.
Əsas transformasiya metodları:
- Normalizasiya və Standartlaşdırma: Ədədi məlumatlar fərqli ölçülərdə ola bilər. Bu fərqliliyi azaltmaq üçün 0-1 aralığına salmaq və ya z-score ilə standartlaşdırma istifadə olunur.
- One-Hot Encoding: Kategorik dəyərləri rəqəmsal formada təmsil etmək üçün hər dəyər ayrıca sütun halına salınır.
- Binning: Yaş kimi davamlı dəyişənlər intervallara bölünərək qruplaşdırılır (məsələn: 18–25, 26–35).
- Log-transformasiya: İfrat dəyərləri olan dəyişənlərin daha balanslı hala gətirilməsi üçün istifadə olunur.
Məlumatların Birləşdirilməsi və Uyğunlaşdırılması
Müxtəlif mənbələrdən məlumat toplandıqda, onların bir-biri ilə uyğunlaşdırılması və birləşdirilməsi vacib olur. Bu, əslində real dünya datalarında ən çox rast gəlinən proseslərdən biridir.
- Join əməliyyatları: SQL, Pandas və s. alətlər vasitəsilə “inner join”, “left join”, “merge” və s. əməliyyatlar.
- Yeni dəyişənlərin yaradılması: Mövcud sütunlardan yeni sütunların yaradılması – məsələn, tarixdən “gün”, “ay”, “il” kimi dəyişənlərin çıxarılması.
- Çapraz validasiya üçün dəyişənlərin yaradılması: Təhlilin daha sabit olması üçün kateqoriyalar və dəyişənlər arasında əlaqə yaradılması.
İfrat və Nadir Dəyərlərlə İş
Outlier (nadir və ifrat) dəyərlər statistik təhlildə böyük təhriflər yarada bilər. Onların düzgün aşkarlanması və idarə olunması nəticələrin sabitliyini artırır.
Əsas yanaşmalar:
- Silinməsi: Bəzi hallarda bu dəyərlər tamamilə çıxarılır.
- Çevrilməsi: Digər dəyərlərlə əvəzlənə bilər (median, qonşu orta və s.)
- Model əsaslı təhlil: Decision tree və ya regression modelləri ilə dəyərlərin təhlili.
Data Wrangling üçün Populyar Alətlər
Python:
- Pandas: Məlumat çərçivələrinin (dataframe) idarəsi və transformasiyası üçün əsas kitabxanadır.
- NumPy: Ədədi hesablama və massivlərlə iş üçün.
- OpenRefine: Böyük verilənlərin təmizlənməsi və vizual dəyişikliklər üçün.
R dili:
- dplyr: Data wrangling üçün R dilində ən güclü kitabxanalardan biridir.
- tidyr: Məlumatları yenidən formatlamaq və təmizləmək üçün.
- data.table: Yüksək performanslı məlumat təhlili üçün istifadə olunur.
Yekun və Tövsiyələr
Effektiv data wrangling yalnız məlumatların təmizlənməsi deyil, həm də verilənlərə qarşı düzgün analitik baxış bucağı deməkdir. Prosesin düzgün aparılması analitik nəticələrin etibarlılığını, modelin gücünü və performansını birbaşa artırır.

Tövsiyələr:
- Məlumatın mənbəyini anlayın
- Dəyişənləri yoxlayın və vizual analiz aparın
- Təmizləmə prosesini sənədləşdirin
- Data wrangling prosesini təkrarlana bilən edin (scripts yazmaqla)
Əlavə Resurslar
Məlumatların təmizlənməsi və təhlili sahəsində daha dərindən öyrənmək istəyirsinizsə, aşağıdakı resurslardan yararlana bilərsiniz:
Alas Academy – Kurslar, təlimatlar və praktik dərslər üçün: https://alas.edu.az
