Data Wrangling

Dekabr 26, 2024

Data Wrangling (Məlumatın Təmizlənməsi və Formatlanması)

Məlumatın təmizlənməsi və formatlanması, məlumat analitikası və mühəndisliyi proseslərinin əsas mərhələlərindən biridir. Bu mərhələ, əldə edilmiş xam məlumatların təhlil üçün uyğun bir formata gətirilməsi, strukturlaşdırılması və istifadəyə hazır hala gətirilməsi prosesidir. “Data Wrangling” və ya “Data Munging” olaraq da bilinir, bu, məlumatın daha dərin analizlərə və maşın öyrənmə modellərinə uyğunlaşdırılmasını təmin edir.

Məlumatların təmizlənməsi və formatlanması bir neçə addımdan ibarət ola bilər, və hər bir addım, məlumatın keyfiyyətini artırmağa və təhlil edilə bilən vəziyyətə gətirməyə yönəlib. Aşağıda, bu prosesin əsas komponentlərini və metodlarını təqdim edirik.

1. Məlumatın Süzülməsi (Filtering Data)

Məlumatın süzülməsi, müəyyən şərtlərə uyğun olmayan və ya təhlil üçün uyğun olmayan məlumatların çıxarılması prosesidir. Məsələn, məlumat dəstində təkrarlanan qeydlər, səhv yazılmış dəyərlər və ya həddindən artıq səhvləri olan məlumatlar silinə bilər.

Dublikatların silinməsi: Məlumat dəstində təkrarlanan sətirlərin çıxarılması.

Səhv dəyərlərin düzəldilməsi: Çox yüksək və ya çox aşağı dəyərlər kimi səhv daxil edilmiş məlumatlar təmizlənir.

2. İtkin Məlumatların İdarə Edilməsi (Handling Missing Data)

İtkin məlumatlar analitik prosesləri çətinləşdirə bilər. Məlumatın təmizlənməsi mərhələsində, itkin dəyərlərin idarə olunması vacibdir. Bunun üçün bir neçə metod istifadə olunur:

İmpütasiya: İtkin məlumatların yerini təxmin edərək doldurmaq (məsələn, ortalama, median, mod ilə).

Sətirlərin və ya sütunların silinməsi: Bəzi hallarda, itkin məlumatlar olan sətirlər və ya sütunlar tamamilə silinə bilər.

İtkin məlumatları göstərmək: Bəzən itkin məlumatlar xüsusi dəyərlərlə (məsələn, NA, NULL, 0 və s.) göstərilir və daha sonra bu dəyərlər üzərində işlənir.

3. Formatın Düzgünləşdirilməsi (Data Formatting)

Məlumatların təmizlənməsi və analizə hazır olması üçün, düzgün formatda olması vacibdir. Bəzi məlumatlar səhv formatda daxil edilə bilər və bu da analizlərə mənfi təsir göstərir.

Tarix və zaman formatları: Məlumatın təhlil üçün uyğun formatda olması vacibdir. Məsələn, tarixlər “YYYY-MM-DD” formatında olmalıdır.

Mətnin standartlaşdırılması: Kategorik dəyişənlərdə (məsələn, şəhər adları) səhv yazılmış dəyərlərin və ya fərqli yazım formalarının birləşdirilməsi.

Verilənlərin tipi: Dəyişənlərin düzgün tipdə (məsələn, ədədi və ya mətn tipi) olmasına diqqət yetirilməlidir.

4. Məlumatın Transformasiyası (Data Transformation)

Məlumatın transformasiyası, verilənlər bazasındakı və ya məlumat dəstindəki strukturların daha istifadəyə yararlı hala gətirilməsi prosesidir. Bu, daha mürəkkəb analizlər və maşın öyrənmə modelləri üçün faydalıdır.

Normalizasiya və Standartlaşdırma: Məlumatları müəyyən bir ölçü vahidinə gətirmək üçün, məsələn, “0-1” intervalına normalizasiya etmək və ya z-skoru ilə standartlaşdırma.

One-Hot Encoding: Kategorik dəyişənlərin rəqəmsal verilənlərə çevrilməsi, məsələn, “qırmızı”, “yaşıl”, “mavi” rəngləri üçün hər birini ayrıca sütun olaraq göstərmək.

Binning (Qutulara ayırma): Ədədi dəyişənləri müəyyən intervallara ayırmaq (məsələn, yaş qrupları: 0-18, 19-35, 36-50, 51+).

5. Dəyərlərin Çevrilməsi və Aydınlaşdırılması (Data Conversion and Cleansing)

Məlumatın müxtəlif qaynaqlardan gəldiyi və fərqli formatlarda olduğu hallarda, məlumatları uyğunlaşdırmaq və birləşdirmək vacibdir. Bəzi metodlar:

Məlumatların birləşdirilməsi: Müxtəlif məlumat mənbələrindən gələn məlumatların birləşdirilməsi və ya “join” əməliyyatları ilə inteqrasiyası.

Əlavə dəyişənlərin yaradılması: Yeni dəyişənlər yaradaraq, mövcud verilənlər üzərində əlavə analizlər aparmaq.

6. Outliers (Əksik Dəyərlər) ilə İşləmək

Əksik dəyərlər, verilənlər bazasında nadir və çox yüksək və ya çox aşağı dəyərləri ifadə edir. Bu dəyərlər analizlərə təsir göstərə bilər, buna görə də onları düzgün idarə etmək vacibdir.

Əksik dəyərlərin çıxarılması: Çox yüksək və ya çox aşağı olan qeydləri təhlildən çıxarmaq.

Əksik dəyərlərin düzəldilməsi: Dəyişənlərin doğru bir şəkildə qiymətləndirilməsi üçün model və ya statistika istifadə edərək düzəldilməsi.

7. Data Wrangling Alətləri

Məlumatın təmizlənməsi və formatlanması üçün bir çox alət və kitabxana mövcuddur. Məsələn:

Pandas: Python-da məlumatların təmizlənməsi və manipulyasiyası üçün geniş istifadə olunan bir kitabxanadır.

dplyr: R dilində məlumatları təmizləmək və manipulyasiya etmək üçün istifadə olunur.

OpenRefine: Çox böyük verilənlər dəstləri ilə işləmək və məlumatları təmizləmək üçün açıq mənbəli bir alətdir.

Nəticə:

Məlumatın təmizlənməsi və formatlanması, məlumat analizi və maşın öyrənmə modelləri üçün çox vacib bir addımdır. Bu proses, xam məlumatların təhlil üçün daha uyğun hala gətirilməsini təmin edir və nəticədə daha düzgün və etibarlı analizlərə yol açır. Bu mərhələ düzgün aparılmadığı təqdirdə, analizlərin doğruluğu və nəticələrin etibarlılığı ciddi şəkildə təsirlənə bilər. Data wrangling prosesinin effektiv şəkildə idarə olunması, məlumatların keyfiyyətini və istifadə oluna bilənliyini artırır.


Bizə Qoşul

Tədris Müddətini Başa Vur, Beynəlxalq Sertifikat Əldə Edərək Remote Iş Imkanı Qazan!