Məlumatın təmizlənməsi və formatlanması, analitik və mühəndislik proseslərinin əsas mərhələlərindən biridir. Bu mərhələ, xam məlumatların təhlil üçün uyğun formata salınması və strukturlaşdırılması prosesidir. “Data Wrangling” və ya “Data Munging” kimi də tanınır. Bu, məlumatın dərin analizlər və maşın öyrənmə üçün uyğunlaşdırılmasını təmin edir.
📌 Daha çox resurs, kurs və təlimat üçün Alas Academy-nin ana səhifəsinə keçid et: 👉 https://alas.edu.az
Məlumatın Süzülməsi
Süzülmə, analizə uyğun olmayan və ya səhv olan məlumatların çıxarılmasıdır. Bu mərhələdə aşağıdakı əməliyyatlar aparılır:
- Dublikatların silinməsi: Təkrarlanan sətirlərin çıxarılması.
- Səhv dəyərlərin düzəldilməsi: Uyğunsuz və ya qeyri-realist rəqəmlərin silinməsi.
İtkin Məlumatların İdarə Edilməsi
İtkin dəyərlər təhlili çətinləşdirə bilər. Onların idarəsi üçün:
- İmpütasiya: Ortalama, median və ya mod ilə doldurma.
- Sətir və sütunların silinməsi: Lazım gəldikdə tamamilə çıxarılır.
- Xüsusi dəyərlə qeyd: NA, NULL və ya 0 kimi işarələnə bilər.
Formatın Düzgünləşdirilməsi
Doğru format analiz keyfiyyətinə təsir edir. Burada əsas addımlar:
- Tarix formatı: YYYY-MM-DD kimi standart forma salınması.
- Mətnin standartlaşdırılması: Şəhər adları və digər kategorik dəyərlərin birləşdirilməsi.
- Verilənlərin tipi: Dəyişənlər ədədi və ya mətn kimi düzgün tanımlanmalıdır.
Məlumatın Transformasiyası
Transformasiya, məlumatı daha istifadəyə yararlı hala gətirir:
- Normalizasiya və Standartlaşdırma: Məlumatı 0-1 intervalına salmaq və ya z-score ilə ölçmək.
- One-Hot Encoding: Kategorik dəyərləri sütunlara çevirmək.
- Binning: Ədədi dəyişənləri yaş qruplarına və ya digər intervallara bölmək.
Dəyərlərin Çevrilməsi və Aydınlaşdırılması
Müxtəlif mənbələrdən gələn məlumatları uyğunlaşdırmaq vacibdir:
- Birləşdirmə: “Join” əməliyyatı ilə bir neçə mənbədən məlumatın birləşdirilməsi.
- Yeni dəyişənlər: Əlavə analiz üçün yeni sütunların yaradılması.
Əksik Dəyərlərlə İş
Nadir və ifrat dəyərlər təhlilə mənfi təsir edə bilər:
- Silinməsi: Həddən artıq fərqli dəyərlər çıxarılır.
- Düzəldilməsi: Statistik və ya model əsaslı metodlarla əvəzləmə.
Data Wrangling Alətləri
Ən məşhur alətlər:
- Pandas (Python): Məlumatların təmizlənməsi və idarəsi.
- dplyr (R): Təmizləmə və çevirmə əməliyyatları üçün.
- OpenRefine: Böyük verilənlər üzərində təmizləmə işləri üçün istifadə olunur.
Məlumatın təmizlənməsi, düzgün və etibarlı analiz üçün əsas şərtdir. Bu mərhələ düzgün yerinə yetirilmədikdə nəticələrin doğruluğu sual altına düşə bilər. Effektiv data wrangling, məlumat keyfiyyətini və istifadəsini artırır. Bu sahədə daha çox öyrənmək üçün Alas Academy-nin resurslarından yararlana bilərsiniz: 👉 https://alas.edu.az