Maşın öyrənməsinin təməl daşı olan nəzarətsiz öyrənmə, etiketlənməmiş verilənlərdə nümunələr və strukturların tapılması problemini həll edir. Etiketli nümunələrə əsaslanan nəzarət edilən öyrənmədən fərqli olaraq, nəzarətsiz öyrənmə əvvəlcədən təyin edilmiş kateqoriyalar və ya hədəf dəyişənlər olmadan məlumatları araşdırır. Bu, gizli əlaqələrin aşkarlanmasına, verilənlərin ölçülərinin azaldılmasına və yeni məlumat nöqtələrinin yaradılmasına imkan verir. Bununla belə, açıq etiketlərin olmaması hər birinin öz güclü və zəif tərəfləri olan müxtəlif yanaşmalara gətirib çıxarır. Bu məqalə nəzarətsiz öyrənmənin əsas növləri arasındakı əsas fərqləri araşdırır.
1. Klasterləşdirmə: Bu texnika oxşar məlumat nöqtələrini klasterlərdə qruplaşdırmaq məqsədi daşıyır. Bənzərlik tez-tez Evklid məsafəsi və ya kosinus oxşarlığı kimi məsafə ölçüləri ilə ölçülür. Müxtəlif klasterləşdirmə alqoritmləri bu qruplaşmaya nail olmaq üçün müxtəlif strategiyalardan istifadə edir.
K-Means Clustering: Hər bir müşahidənin ən yaxın orta (mərkəz) ilə klasterə aid olduğu n müşahidəni k klasterə bölmək məqsədi daşıyan məşhur bölməli klasterləşdirmə alqoritmi. Alqoritm iterativ olaraq klaster mərkəzlərini yaxınlaşmaya qədər dəqiqləşdirir.
Düstur: K-vasitənin məqsəd funksiyası hər bir məlumat nöqtəsi ilə onun təyin edilmiş mərkəzi arasındakı kvadrat məsafələrin cəmini minimuma endirir:
J = Σᵢ Σⱼ ||xᵢⱼ — μⱼ||²
harada:
J məqsəd funksiyasıdır
xᵢⱼ j klasterində i-ci məlumat nöqtəsidir
μⱼ j klasterinin mərkəzidir
İerarxik Klasterləşmə: Bu, ya aglomerativ (aşağıdan yuxarı, birləşən çoxluqlar) və ya bölücü (yuxarıdan aşağı, parçalanan çoxluqlar) qruplar iyerarxiyasını qurur. Müxtəlif əlaqə meyarları (məsələn, tək əlaqə, tam əlaqə, orta əlaqə) klasterlər arasında oxşarlığın necə ölçüldüyünü müəyyən edir.
DBSCAN (Səs-küylü Tətbiqlərin Sıxlığa əsaslanan məkan qruplaşması): Bu alqoritm məlumat nöqtəsinin sıxlığına əsaslanan klasterləri müəyyən edir. Əsas nöqtələr digər nöqtələrlə sıx şəkildə əhatə olunmuşdur və sərhəd nöqtələri əsas nöqtələrə yaxındır. Heç bir klasterin bir hissəsi olmayan nöqtələr səs-küy kimi etiketlənir.
2. Ölçülərin Azaldılması: Bu, vacib məlumatları qoruyarkən dəyişənlərin sayını azaltmağa yönəlmişdir. Bu vizuallaşdırma, model performansını yaxşılaşdırmaq və hesablama xərclərini azaltmaq üçün çox vacibdir.
Əsas Komponent Analizi (PCA): Verilənləri verilənlərdə maksimum fərqi tutan əsas komponentlər tərəfindən müəyyən edilmiş daha aşağı ölçülü alt fəzaya proyeksiya edən xətti transformasiya.
t-paylanmış Stokastik Qonşu Yerləşdirmə (t-SNE): Yüksək ölçülü məkanda yerli qonşuluq strukturlarını qoruyub saxlamaq məqsədi daşıyan qeyri-xətti ölçülərin azaldılması üsulu. Yüksək ölçülü məlumatları vizuallaşdırmaq üçün xüsusilə faydalıdır.
3. Assosiasiya Qaydalarının Miningi: Bu texnika böyük verilənlər bazasında dəyişənlər arasında maraqlı əlaqələri aşkar edir. Tez-tez birlikdə satın alınan məhsulları müəyyən etmək üçün bazar səbətinin təhlilində istifadə olunur.
Apriori alqoritmi: Tez-tez element dəstləri və assosiasiya qaydalarını çıxarmaq üçün klassik alqoritm. O, aşağıdan-yuxarıya yanaşmadan istifadə edir, iterativ olaraq tez-tez element dəstlərini müəyyənləşdirir və dəstək və güvən hədləri əsasında assosiasiya qaydaları yaradır.
4. Anomaliyaların aşkarlanması: Bu, normadan əhəmiyyətli dərəcədə kənara çıxan məlumat nöqtələrini müəyyən etmək məqsədi daşıyır. Bu anomaliyalar səhvləri, saxtakarlığı və ya maraqlı hadisələri təmsil edə bilər.
Bir sinifli SVM: Normal məlumatları anomal məlumatlardan ayıran sərhədi müəyyən etmək üçün yalnız bir sinif (normal məlumat) üzərində öyrədilmiş dəstək vektor maşını.
Nəticə olaraq, nəzarətsiz öyrənmə etiketlənməmiş məlumatları araşdırmaq və anlamaq üçün güclü alətlər dəsti təklif edir. Klasterləşdirmə alqoritmləri oxşar məlumat nöqtələrini qruplaşdırır, ölçülərin azaldılması üsulları məlumatı qoruyarkən məlumatları sadələşdirir və anomaliyaların aşkarlanması üsulları qeyri-adi müşahidələri müəyyən edir. Optimal seçim konkret problemdən, verilənlərin xarakteristikalarından, hesablama resurslarından və arzu olunan şərh səviyyəsindən asılıdır. Uğurlu tətbiq üçün hər bir metodun güclü və zəif tərəflərinin diqqətlə nəzərdən keçirilməsi vacibdir.
İstinadlar:
Jain, A. K., Murty, M. N., & Flynn, P. J. (1999). Məlumatların klasterləşdirilməsi: baxış. ACM hesablama sorğuları (CSUR), 31(3), 264–323.
Hastie, T., Tibshirani, R., & Wainwright, M. (2015). Seyrəkliklə statistik öyrənmə: kəmənd və ümumiləşdirmələr. CRC mətbuatı.
Müəllif: Rufat Pashayev