Deskriptiv Statistika: Python ilə Əsas Hesablamalar

Deskriptiv Statistika nədir?
Deskriptiv statistika məlumatların mərkəzi meylini, dəyişkənliyini və yayılmasını başa düşməyə imkan verən qısa xülasədir. Bu məqalədə, Python dilində əhəmiyyətli deskriptiv statistikalara, o cümlədən ortalama (mean), median, moda, dispersiya (variance), standart sapma (standard deviation) və aralığı (range) nəzər salacağıq. Bütün bu göstəricilər, məlumat dəstəsinin deskriptiv məlumat kimi ümumi xülasəsini təqdim etməyə kömək edir.
Deskriptiv statistikada bu hesablamaları yerinə yetirmək üçün Python-da NumPy və SciPy kitabxanalarından istifadə edilir.
Ortalama (Mean) Nədir və Necə Hesablanır?
Deskriptiv statistikada Ortalama, bir məlumat dəstindəki bütün dəyərlərin cəminin dəyərlərin sayına bölünməsi ilə hesablanır.
Düstur: Mean = i-2nxin
İstifadəsi: Ortalama, verilən məlumat dəstindəki bütün dəyərlərin cəmini onların sayına bölməklə hesablanır. Bu göstərici məlumatların mərkəzi meylini təyin etmək üçün istifadə olunur və bir məlumat dəstinin ümumi meylini öyrənmək üçün əsas statistik göstəricidir.
Tətbiq sahəsi: Məsələn, bir sinifdəki şagirdlərin ortalama qiymətlərini hesablamaq üçün istifadə edilə bilər.
İzah: np.mean() funksiyası məlumat dəstinin orta dəyərini hesablayır. Nümunəmizdə, ortalama (10 + 20 + 30 + 40 + 50) / 5 = 30 olaraq hesablanır.
Median Nədir və Hansı Hallarda İstifadə Olunur?
Median ifrat dəyərlərin təsirini azaldan mühüm bir ölçüdür. Məsələn, gəlir səviyyəsi təhlil edərkən median, ortalamadan daha çox doğru məlumat verə bilər, çünki yüksək gəlirli şəxslər medianı təsirləndirməz.
Əgər elementlərin sayı cüt olarsa, median orta iki elementin ortalamasıdır.
Düstur:
Tək saylı elementlər üçün: Median = xₙ₊₁/₂
Cüt saylı elementlər üçün: Median = (xₙ/₂ + xₙ/₂₊₁) / 2
İstifadəsi: Median, sıralanmış məlumat dəstindəki orta dəyəri göstərir. Məlumat dəstinin ortasına yaxın olan dəyəri tapmaq üçün istifadə olunur və ifrat dəyərlərin təsirini azaltmaq üçün əhəmiyyətlidir.
Tətbiq sahəsi: Median, məsələn, əhalinin gəlir səviyyəsini təhlil edərkən geniş istifadə olunur, çünki bu, ekstremal dəyərlərin təsirini azaldır.
İzah: np.median() funksiyası məlumat dəstinin orta dəyərini qaytarır.
Moda Nədir və Tezlik Analizində Rolu Nədir?
Moda, bir məlumat dəstində ən çox rast gəlinən dəyərdir. Bir dəstdə eyni yüksək tezlikdə müxtəlif dəyərlər varsa, bir neçə moda ola bilər.
İstifadəsi: Moda, məlumat dəstində ən çox rast gəlinən dəyəri göstərir. Məlumatların tezlik analizi üçün istifadə olunur və ən çox təkrarlanan dəyərləri müəyyən etmək üçün əhəmiyyətlidir.
Tətbiq sahəsi: Moda, məsələn, satışda ən çox satılan məhsulun hansı olduğunu öyrənmək üçün istifadə oluna bilər.
İzah: stats.mode() funksiyası məlumat dəstinin ən çox rast gəlinən dəyərini qaytarır. Nümunəmizdəki bütün dəyərlər unikal olduğundan, moda ən kiçik dəyər, yəni 10 olur.

Dispersiya (Variance) Məlumatın Yayılmasını Necə Ölçür?
Dispersiya, məlumat dəstinin yayılmasını ölçən bir göstəricidir. Bu, orta dəyərdən kvadrat fərqlərin ortalamasıdır. Məsələn, bir verilənlər dəstində dispersiyanın yüksək olması, dəyərlərin ortalamadan çox uzaq olduğunu göstərir, bu da məlumatların yayılmasının geniş olduğunu bildirir.
Düstur: Variance = ∑(xᵢ – Mean)² / n
İstifadəsi: Dispersiya, məlumat dəstinin yayılmasını və müxtəlifliyini ölçür. Dəyərlərin orta meyl ətrafında nə qədər dəyişdiyini öyrənmək üçün istifadə olunur.
Tətbiq sahəsi: Dispersiya, məsələn, fond bazarındakı qiymət dəyişikliklərinin riskini ölçmək üçün istifadə edilə bilər.
Kod nümunəsi:
python
variance = np.var(data)
print("Dispersiya:", variance)
İzah: np.var() funksiyası dispersiyanı hesablayır, yəni dəyərlərin nə qədər yayılmış olduğunu ölçür. Bizim nümunə məlumatımıza görə, bu 200-ə bərabərdir.
Standart Sapma (Standard Deviation) Nəyi İfadə Edir?
Standart sapma, dispersiyanın kvadrat köküdür, yəni məlumat dəstinin yayılmasını məlumatın vahidlərində ölçür.
Düstur: Std = √Variance
İstifadəsi: Standart sapma, dispersiyanın kvadrat kökü olaraq, məlumat dəstinin yayılmasını daha asan başa düşülən ölçüdə təqdim edir. Məlumatların ortalamadan nə qədər uzaqlaşdığını ölçmək üçün istifadə olunur.
Tətbiq sahəsi: Standart sapma, məsələn, bir şirkətin aylıq gəlirindəki dəyişiklikləri ölçmək üçün istifadə oluna bilər.
İzah: Məlumat dəstimizə görə, standart sapma təxminən 14.14-dür.
Aralıq (Range) Necə Tapılır?
Aralıq, məlumat dəstindəki minimum və maksimum dəyərlər arasındakı fərqdir.
Düstur: Range = Max – Min
İstifadəsi: Aralıq, məlumat dəstindəki ən yüksək və ən aşağı dəyər arasındakı fərqi göstərir. Məlumatların yayılmasını tez bir şəkildə qiymətləndirmək üçün istifadə olunur.
Tətbiq sahəsi: Aralıq, məsələn, bir məhsulun qiymət aralığını təhlil etmək üçün istifadə edilə bilər.
İzah: np.ptp() funksiyası maksimum və minimum dəyərlər arasındakı fərqi hesablayır. Bizim nümunə məlumat dəstimizə görə, bu 40-dır, çünki 50 – 10 = 40.
Nəticə
Deskriptiv statistika, məlumat dəstində nə olduğunu anlamaq üçün əsas elementlərdir. Python və mövcud olan çoxsaylı kitabxanalar vasitəsilə bu hesablama əməliyyatlarını asanlıqla yerinə yetirə bilərik və əlimizdəki məlumatlardan daha çox şey öyrənə bilərik. Bu anlayışlar, həm başlanğıc, həm də orta səviyyəli öyrənənlər və peşəkar data analitiklərinin dataları effektiv şəkildə təhlil etmələri üçün bilməli olduqları əsas biliklərdir. Deskriptiv statistika məlumat analizi, hər hansı geniş məlumat toplusunu ilkin mərhələdə daha yaxşı anlamağa imkan verir.
Əlavə Mənbə
ALAS Academy saytını ziyarət edərək daha çox məlumat əldə edə bilərsiniz.
