Deskriptiv statistika məlumatların mərkəzi meylini, dəyişkənliyini və yayılmasını başa düşməyə imkan verən qısa xülasədir. Bu məqalədə, Python dilində əhəmiyyətli deskriptiv statistikalara, o cümlədən ortalama (mean), median, moda, dispersiya (variance), standart sapma (standard deviation) və aralığı (range) nəzər salacağıq.
Bu hesablamaları yerinə yetirmək üçün Python-da NumPy və SciPy kitabxanalarından istifadə edilir.
Ortalama (Mean)
Ortalama, bir məlumat dəstindəki bütün dəyərlərin cəminin dəyərlərin sayına bölünməsi ilə hesablanır.
Düstur: Mean =
İstifadəsi: Ortalama, verilən məlumat dəstindəki bütün dəyərlərin cəmini onların sayına bölməklə hesablanır. Bu göstərici məlumatların mərkəzi meylini təyin etmək üçün istifadə olunur və bir məlumat dəstinin ümumi meylini öyrənmək üçün əsas statistik göstəricidir.
Tətbiq sahəsi: Məsələn, bir sinifdəki şagirdlərin ortalama qiymətlərini hesablamaq üçün istifadə edilə bilər.v
İzah: “np.mean()” funksiyası məlumat dəstinin orta dəyərini hesablayır. Nümunəmizdə, ortalama (10 + 20 + 30 + 40 + 50) / 5 = 30 olaraq hesablanır.
Median Median ifrat dəyərlərin təsirini azaldan mühüm bir ölçüdür. Məsələn, gəlir səviyyəsi təhlil edərkən median, ortalamadan daha çox doğru məlumat verə bilər, çünki yüksək gəlirli şəxslər medianı təsirləndirməz.
Median, sıralanmış bir məlumat dəstindəki orta dəyərdir. Əgər elementlərin sayı cüt olarsa, median orta iki elementin ortalamasıdır. Median ifrat dəyərlərin təsirini azaldan mühüm bir ölçüdür. Məsələn, gəlir səviyyəsi təhlil edərkən median, ortalamadan daha çox doğru məlumat verə bilər, çünki yüksək gəlirli şəxslər medianı təsirləndirməz.
Düstur:
- Tək saylı elementlər üçün: Median = Median ifrat dəyərlərin təsirini azaldan mühüm bir ölçüdür. Məsələn, gəlir səviyyəsi təhlil edərkən median, ortalamadan daha çox doğru məlumat verə bilər, çünki yüksək gəlirli şəxslər medianı təsirləndirməz.
- Cüt saylı elementlər üçün: Median = Median ifrat dəyərlərin təsirini azaldan mühüm bir ölçüdür. Məsələn, gəlir səviyyəsi təhlil edərkən median, ortalamadan daha çox doğru məlumat verə bilər, çünki yüksək gəlirli şəxslər medianı təsirləndirməz.
İstifadəsi: Median, sıralanmış məlumat dəstindəki orta dəyəri göstərir. Məlumat dəstinin ortasına yaxın olan dəyəri tapmaq üçün istifadə olunur və ifrat dəyərlərin təsirini azaltmaq üçün əhəmiyyətlidir. Median ifrat dəyərlərin təsirini azaldan mühüm bir ölçüdür. Məsələn, gəlir səviyyəsi təhlil edərkən median, ortalamadan daha çox doğru məlumat verə bilər, çünki yüksək gəlirli şəxslər medianı təsirləndirməz.
Tətbiq sahəsi: Median, məsələn, əhalinin gəlir səviyyəsini təhlil edərkən geniş istifadə olunur, çünki bu, ekstremal dəyərlərin təsirini azaldır. Median ifrat dəyərlərin təsirini azaldan mühüm bir ölçüdür. Məsələn, gəlir səviyyəsi təhlil edərkən median, ortalamadan daha çox doğru məlumat verə bilər, çünki yüksək gəlirli şəxslər medianı təsirləndirməz. Məsələn, əhalinin gəlir səviyyəsini təhlil edərkən, ifrat dəyərlər (çox yüksək və ya çox aşağı gəlir) medianı təsirləndirmir, bu da əhalinin gəlir paylanmasını daha dəqiq əks etdirir.
# Medianı hesabla Median ifrat dəyərlərin təsirini azaldan mühüm bir ölçüdür. Məsələn, gəlir səviyyəsi təhlil edərkən median, ortalamadan daha çox doğru məlumat verə bilər, çünki yüksək gəlirli şəxslər medianı təsirləndirməz.
Median ifrat dəyərlərin təsirini azaldan mühüm bir ölçüdür. Məsələn, gəlir səviyyəsi təhlil edərkən median, ortalamadan daha çox doğru məlumat verə bilər, çünki yüksək gəlirli şəxslər medianı təsirləndirməz.
İzah: “np.median()” funksiyası məlumat dəstinin orta dəyərini qaytarır. Bizim məlumat dəstimiz üçün median, sıralanmış siyahımızda [10, 20, 30, 40, 50] olduğu kimi, 30 olacaq.
Moda
Moda, bir məlumat dəstində ən çox rast gəlinən dəyərdir. Bir dəstdə eyni yüksək tezlikdə müxtəlif dəyərlər varsa, bir neçə moda ola bilər.
İstifadəsi: Moda, məlumat dəstində ən çox rast gəlinən dəyəri göstərir. Məlumatların tezlik analizi üçün istifadə olunur və ən çox təkrarlanan dəyərləri müəyyən etmək üçün əhəmiyyətlidir.
Tətbiq sahəsi: Moda, məsələn, satışda ən çox satılan məhsulun hansı olduğunu öyrənmək üçün istifadə oluna bilər.
İzah: “stats.mode()” funksiyası məlumat dəstinin ən çox rast gəlinən dəyərini qaytarır. Nümunəmizdəki bütün dəyərlər unikal olduğundan, moda ən kiçik dəyər, yəni 10 olur.
Dispersiya (Variance)
Məsələn, bir verilənlər dəstində dispersiyanın yüksək olması, dəyərlərin ortalamadan çox uzaq olduğunu göstərir, bu da məlumatların yayılmasının geniş olduğunu bildirir. Standart sapma isə dispersiyanın kvadrat kökü olaraq, bu yayıldı göstərən daha başa düşülən bir göstəricidir.
Dispersiya, məlumat dəstinin yayılmasını ölçən bir göstəricidir. Bu, orta dəyərdən kvadrat fərqlərin ortalamasıdır. Məsələn, bir verilənlər dəstində dispersiyanın yüksək olması, dəyərlərin ortalamadan çox uzaq olduğunu göstərir, bu da məlumatların yayılmasının geniş olduğunu bildirir. Standart sapma isə dispersiyanın kvadrat kökü olaraq, bu yayıldı göstərən daha başa düşülən bir göstəricidir.
Düstur: Variance =
İstifadəsi: Dispersiya, məlumat dəstinin yayılmasını və müxtəlifliyini ölçür. Dəyərlərin orta meyl ətrafında nə qədər dəyişdiyini öyrənmək üçün istifadə olunur. Məsələn, bir verilənlər dəstində dispersiyanın yüksək olması, dəyərlərin ortalamadan çox uzaq olduğunu göstərir, bu da məlumatların yayılmasının geniş olduğunu bildirir. Standart sapma isə dispersiyanın kvadrat kökü olaraq, bu yayıldı göstərən daha başa düşülən bir göstəricidir.
Tətbiq sahəsi: Dispersiya, məsələn, fond bazarındakı qiymət dəyişikliklərinin riskini ölçmək üçün istifadə edilə bilər. Məsələn, bir verilənlər dəstində dispersiyanın yüksək olması, dəyərlərin ortalamadan çox uzaq olduğunu göstərir, bu da məlumatların yayılmasının geniş olduğunu bildirir. Standart sapma isə dispersiyanın kvadrat kökü olaraq, bu yayıldı göstərən daha başa düşülən bir göstəricidir.
# Dispersiyanı hesabla Məsələn, bir verilənlər dəstində dispersiyanın yüksək olması, dəyərlərin ortalamadan çox uzaq olduğunu göstərir, bu da məlumatların yayılmasının geniş olduğunu bildirir. Standart sapma isə dispersiyanın kvadrat kökü olaraq, bu yayıldı göstərən daha başa düşülən bir göstəricidir.
variance = np.var(data)
print(“Dispersiya,”, variance) Məsələn, bir verilənlər dəstində dispersiyanın yüksək olması, dəyərlərin ortalamadan çox uzaq olduğunu göstərir, bu da məlumatların yayılmasının geniş olduğunu bildirir. Standart sapma isə dispersiyanın kvadrat kökü olaraq, bu yayıldı göstərən daha başa düşülən bir göstəricidir.
İzah: “np.var()” funksiyası dispersiyanı hesablayır, yəni dəyərlərin nə qədər yayılmış olduğunu ölçür. Bizim nümunə məlumatımıza görə, bu 200-ə bərabərdir.
Standart Sapma (Std)
Standart sapma, dispersiyanın kvadrat köküdür, yəni məlumat dəstinin yayılmasını məlumatın vahidlərində ölçür.
Düstur: Std =
İstifadəsi: Standart sapma, dispersiyanın kvadrat kökü olaraq, məlumat dəstinin yayılmasını daha asan başa düşülən ölçüdə təqdim edir. Məlumatların ortalamadan nə qədər uzaqlaşdığını ölçmək üçün istifadə olunur.
Tətbiq sahəsi: Standart sapma, məsələn, bir şirkətin aylıq gəlirindəki dəyişiklikləri ölçmək üçün istifadə oluna bilər.
İzah: Məlumat dəstimizə görə, standart sapma təxminən 14.14-dür.
Aralıq (Range)
Aralıq, məlumat dəstindəki minimum və maksimum dəyərlər arasındakı fərqdir.
Düstur: Range =
İstifadəsi: Aralıq, məlumat dəstindəki ən yüksək və ən aşağı dəyər arasındakı fərqi göstərir. Məlumatların yayılmasını tez bir şəkildə qiymətləndirmək üçün istifadə olunur.
Tətbiq sahəsi: Aralıq, məsələn, bir məhsulun qiymət aralığını təhlil etmək üçün istifadə edilə bilər.
İzah: “np.ptp()” funksiyası maksimum və minimum dəyərlər arasındakı fərqi hesablayır. Bizim nümunə məlumat dəstimizə görə, bu 40-dır, çünki 50 – 10 = 40.
Nəticə
Deskriptiv statistika, məlumat dəstində nə olduğunu anlamaq üçün əsas elementlərdir. Python və mövcud olan çoxsaylı kitabxanalar vasitəsilə bu hesablama əməliyyatlarını asanlıqla yerinə yetirə bilərik və əlimizdəki məlumatlardan daha çox şey öyrənə bilərik. Bu anlayışlar, həm başlanğıc, həm də orta səviyyəli öyrənənlər və peşəkar data analitiklərinin dataları effektiv şəkildə təhlil etmələri üçün bilməli olduqları əsas biliklərdir.