Normal Paylanma və Çebışev Qaydası: Data Analitikada Əsas Konsepsiyalar
Statistika və data analitikada normal paylanma və Çebışev qaydası çox vacib anlayışlardır. Bu anlayışlar məlumatların paylanma formasını təhlil etmək və potensial anomaliyaları aşkarlamaq üçün geniş istifadə olunur. Bu məqalədə normal paylanma, standart normal paylanma və Çebışev qaydası izah ediləcək, onların data analitikadakı rolu və tətbiq sahələri göstəriləcək.
Normal Paylanma
Normal paylanma ortalama dəyər ətrafında simmetrik zəng formalı bir əyri ilə təsvir edilir və çox sayda real həyatda rast gəlinən məlumatlar bu paylanmaya uyğundur. Məsələn, insanların boyu, çəkisi və digər bioloji xüsusiyyətləri normal paylanma ilə təsvir oluna bilər. Normal paylanmanın sıxlıq funksiyası belə ifadə olunur:
Burada:
– μ (mu) populyasiyanın orta dəyərini,
– σ (sigma) isə standart kənarlaşmanı göstərir.
Məsələn:
Bir şirkətdə işçilərin aylıq maaşlarının ortalaması 3000 AZN, standart kənarlaşması isə 500 AZN-dir. Bir işçinin maaşının 2000 AZN-dən aşağı olma ehtimalını hesablayaq.
Z-score hesablayırıq:
Ehtimalı tapırıq:
Normal paylanma cədvəlindən Z = -2 üçün ehtimalı tapırıq:
P(X < 2000) ⁓ 0.0228 (yəni 2.28%)
Yəni, işçilərin yalnız 2.28%-i 2000 AZN-dən aşağı maaş alır.
Normal Paylanmanın Xüsusiyyətləri
1. Simmetriklik: Paylanma orta dəyər (μ) ətrafında tam simmetrikdir.
2. Orta, Median və Mod: Normal paylanmada bu üç göstərici eyni dəyərə malikdir, yəni orta nöqtədə üst-üstə düşür.
3. Sahə: Normal paylanmanın əyri altındakı ümumi sahə 1-ə bərabərdir.
4. Empirik Qayda (68–95–99.7 Qaydası):
— 68% məlumatlar bir standart kənarlaşma (μ ± 1σ),
— 95% məlumatlar iki standart kənarlaşma (μ ± 2σ),
— 99.7% məlumatlar isə üç standart kənarlaşma (μ ± 3σ) daxilində yerləşir.
Empirik Qaydanın Məhdudiyyətləri:
– Normal Paylanma Fərziyyəsi: Empirik qayda yalnız normal paylanmış məlumatlara uyğun gəlir.
– Kiçik Nümunələr: Kiçik nümunələrdə bu qayda tam dəqiq olmaya bilər.
– Kənar Nöqtələr: Kənar nöqtələr paylanmanın orta qiymətini və standart kənarlaşmasını korlaya bilər.
Python-da Normal Paylanma ilə Data Yaratmaq və Vizuallaşdırmaq
import numpy as np
import matplotlib.pyplot as plt
# Normal paylanmış data yaratmaq
data = np.random.normal(0, 1, 10000)
# Histoqramı çəkmək
plt.hist(data, bins=50, density=True, alpha=0.6, color='g')
# Normal paylanmanın nəzəri əyrisini çəkmək
x = np.linspace(-4, 4, 100)
plt.plot(x, 1/(np.sqrt(2*np.pi))*np.exp(-x**2/2), 'k', linewidth=2)
# Qrafiki göstərmək
plt.show()
Standart Normal Paylanma
Standart normal paylanma xüsusi bir normal paylanmadır, burada orta dəyər 0-a və standart kənarlaşma 1-ə bərabərdir. Bu paylanma Z-score ilə işləmək üçün əsasdır:
Standart normal paylanma aşağıdakı xüsusiyyətlərə malikdir:
– Simmetriklik: 0 ətrafında tam simmetrikdir.
– Orta, Median və Mod: Hamısı 0-a bərabərdir.
– Sahə: Əyrinin altındakı ümumi sahə 1-ə bərabərdir.
– Z-score: Hər bir nöqtə Z-score (standartlaşmış dəyər) ilə ölçülə bilər.
Məsələn:
Tutaq ki, bir imtahan nəticələrinin standart normal paylanmaya uyğun olduğunu düşünək. Orta bal 0-a, standart kənarlaşma isə 1-ə bərabərdir. Bir tələbənin nəticəsinin 1.5-dən çox olma ehtimalı nə qədərdir?
Həlli:
Bu standart normal paylanma olduğundan, birbaşa Z-score ilə işləyəcəyik:
Verilənlər:
- Z = 1.5 (tələbənin nəticəsi)
Ehtimal tapmaq:
Standart normal paylanma cədvəlindən Z = 1.5 üçün ehtimalı tapırıq:
P(Z > 1.5) = 1 — P(Z < 1.5) ⁓ 1–0.9332 = 0.0668 (yəni 6.68%)
Yəni, tələbələrin yalnız 6.68%-i 1.5-dən çox nəticə əldə edir.
Python-da Standart Normal Paylanma ilə Data Yaratmaq və Vizuallaşdırmaq
# Standart normal paylanmış data yaratmaq
data = np.random.normal(0, 1, 10000)
# Histoqramı çəkmək
plt.hist(data, bins=50, density=True, alpha=0.6, color='b')
# Standart normal paylanmanın nəzəri əyrisini çəkmək
x = np.linspace(-4, 4, 100)
plt.plot(x, 1/(np.sqrt(2*np.pi))*np.exp(-x**2/2), 'r', linewidth=2)
# Qrafiki göstərmək
plt.show()
Çebışev Qaydası
Çebışev qaydası hər hansı bir paylanmada orta qiymətdən müəyyən sayda standart kənarlaşma daxilində olan məlumatların minimum faizini verir. Çebışev qaydası belə ifadə olunur:
Burada:
– X — təsadüfi dəyişən,
– μ — orta dəyər,
– σ— standart kənarlaşma,
– k — pozitiv ədəd.
Məsələn:
Bir şirkətdə işçilərin maaşları orta 3000 AZN və standart kənarlaşma 500 AZN-dir. Çebışev qaydasına əsasən, maaşların 2000 AZN ilə 4000 AZN arasında olma ehtimalını tapaq.
- k = 2 üçün:
- Yəni, məlumatların ən azı 75%-i ortalama iki standart kənarlaşma daxilində olacaq.
Bu düstur göstərir ki, orta dəyərdən k standart kənarlaşma qədər uzaqda olan dəyərlərin nisbəti maksimum 1/k² ola bilər.
Python-da Çebışev Qaydasını Tətbiq Etmək
# Çebışev sərhədini hesablamaq üçün k dəyəri
k = 2
chebyshev_bound = 1 - 1/k^2
# k standart kənarlaşma daxilindəki data nisbətini hesablamaq
mean, std = np.mean(data), np.std(data)
within_k_std = np.sum((data > mean - k*std) & (data < mean + k*std)) / len(data)
# Nəticələri çap etmək
print(f"Çebışev sərhədi: {chebyshev_bound*100:.2f}%")
print(f"Data nisbəti: {within_k_std*100:.2f}%")
Nəticə
Normal paylanma, standart normal paylanma və Çebışev qaydası data analitikada əsas anlayışlardır. Bu konsepsiyalar statistika və maşın öyrənməsi modellərində geniş istifadə olunur. Bu məqalədə nəzəri biliklərlə yanaşı Python vasitəsilə bu anlayışların praktiki tətbiqi də göstərildi, bu da analitik prosesin təməlini təşkil edir.