Süni intellektə Azərbaycan dilini anlamağı öyrədək!

'Səsimiz' — könüllülərin gücü ilə işləyən subtitr redaktə platformasıdır. Məqsəd nitqi tanıyan süni intellektin nəhayət Azərbaycan dilini də yaxşı anlamasına nail olmaq.

Hər dəfə bir neçə dəqiqənizi film subtitrlərinin düzəldilməsinə ayırmaqla, hələ mövcud olmayan böyük, açıq və yüksək keyfiyyətli Azərbaycan dili nitq datasetinin yaranmasına kömək etmiş olarsınız. Üstəlik, proses zamanı filmlər də düzgün subtitrlər və tərcümələr qazanır.

Hazırki problem

Yəqin ki, səsli yazma, YouTube-da avtomatik subtitrlər və ya səsli köməkçilərdən istifadə etmisiniz. Onlar ingilis dilində heyrətamiz dərəcədə yaxşı işləyir. Bəs Azərbaycan dilində? O qədər də yox.

Bu texnologiyanın adı ASR (Automatic Speech Recognition — Avtomatik Nitq Tanıma), digər adı isə STT (Speech-To-Text — Nitqdən Mətnə): danışıq audiosunu yazılı mətnə çevirən süni intellekt modelləridi.

Bu modellər nitqi tanımağı insan beyninə bənzər şəkildə öyrənir — 'eşitdiklərindən'. Bir dildə nə qədər çox nitq materialı ilə öyrədilirlərsə, o dili bir o qədər yaxşı anlayar. Problem isə bir müqayisədə aydın görünür. Ən populyar açıq mənbəli ASR modellərindən biri olan Whisper-in təlim datasına baxaq:

Dil Təlim audiosu (saat)
İngilis438 218
Rus9 761
Türk4 333
İtalyan2 585
Azərbaycan47

Azərbaycan dilindəki təlim audiolarının toplam uzuluğu qırx yeddi saat. İngilis dilinin əlli illik materialı ilə müqayisədə iki gündən az audio. Whisper modellərdən yalnız biridir, amma əsas fakt hər yerdə eynidir: ictimaiyyətə açıq Azərbaycan dili nitq datası çox azdır. Bu belə qaldıqca, süni intellekt dilimizi anlamaqda çətinlik çəkməyə davam edəcək.

Dataset daha dəqiq nə deməkdir?

Nitq dataseti sadəcə qısa audio parçalarından ibarət böyük bir kolleksiyasıdır — hər parça öz dəqiq yazılı transkripsiyası ilə. Vəssalam. Modellər məhz bundan öyrənir. Problem ondadır ki, mətnin audioya tam uyğun gəldiyini yoxlamaq üçün insan əməyi lazımdır — özü də bir xeyli insan əməyi. Məhz burada siz köməyə gələ bilərsiniz.

'Səsimiz' necə işləyir

İdeya budur: təbii, danışıq dilində Azərbaycan nitqinin mənbəyi kimi filmlərdən istifadə etmək — və parallel olaraq həmin filmlər üçün düzgün subtitrlər və tərcümələr yaratmaq.

prosesin görüntüsü
  1. Filmlər seçilir (hüquq sahiblərinin icazəsi ilə — siz də film təklif edə bilərsiniz!).
  2. Whisper avtomatik qaralama subtitrlər yaradır. Modelin hazırda nə qədər zəif olduğunu, qaralama subtirdə hazırda nə qədər səhvlərin olduğunu özünüz görəcəksiniz — layihənin bütün məqsədi məhz bunu yaxşılaşdırmaqdır.
  3. Qaralamalar 'Səsimiz' platformasına yüklənir və mövcud filmlər siyahısında görünür.
  4. Siz (könüllü olan hər kəs) platformaya daxil olursunuz, bir film seçirsiniz və öz tempinizlə filmlərə baxır, dinləyir və subtitrləri düzəldirsiniz. Hər düzəldilmiş fayl qəbul edilməzdən əvvəl keyfiyyət yoxlamasından keçir.
  5. 'Səsimiz' platformasında yaradılmış subtirlər xırda hissələrə bölünür və datasetlərin yaradılmasında istifadə olunur. Daha sonra bu datasetlər süni intellekt modellərinin mükəlləşməsi üçün istifadə olunur

Subtitrlər və tərcümələr: Azərbaycanca subtitrlər təsdiqləndikdən sonra onları başqa dillərə tərcümə etmək asanlaşır — maşın tərcüməsi qaralama verir, könüllülər və mən onu yoxlayırıq, hazır subtitr faylları isə pulsuz ictimaiyyətə açıq şəkildə paylaşılır.

Dataset yaradılması: xüsusi skript filmin tam audiosunu təsdiqlənmiş mətnlə uyğunlaşdırılmış qısa parçalara bölür. Nəticədə təmiz təlim dataseti alınır. Yeni dataset Whisper-in təkmilləşdirilməsi (fine-tuning) üçün istifadə olunacaq və nəticələr WER (söz xətası dərəcəsi) və başqa keyfiyyət meyarları əsasında müqayisə ediləcək. Sonda dataset açıq şəkildə Hugging Face kimi platformalarda dərc olunacaq.

Subtitr redaktoru ekran görüntüsü

Film icazələri haqqında

Filmlərdən yalnız icazə ilə istifadə edilir. İndiyədək Azərbaycanfilm Kinostudiyası ilə (cavablarını gözləyirəm) və Əlixan Rəcəbov əlaqə saxlamışam. Əlixan bütün YouTube filmlərindən istifadə icazəsi verib. Onun filmləri gündəlik danışıq nitqi ilə zəngindir — ASR modelinə lazım olan material məhz budur. Bunun üçün ona çox təşəkkür edirəm!

Daha çox kinorejissor və təşkilatlarla əlaqə saxlayacağam. Azərbaycan dilində filminiz və ya danışıqla zəngin uzun video materialınız (30+ dəqiqə) varsa və onun bu layihədə iştirakına icazə vermək istəyirsinizsə, buna şad olaram — əlaqə formasını doldurun, sizinlə əlaqə saxlayacağam.

Könüllü olmağınız üçün səbəblər:

Tam şəffaflıq

Bu layihə mənim diplom işimdir. Ondan heç bir pul qazanmıram və platformada heç nə pullu deyil. Tədqiqat və diplom işinin yekun təqdimatı üçün platforma könüllülərin subtitrlər üzərində nə qədər vaxt işlədiyini qeyd edir — bu məlumat yalnız ümumi töhfə həcminin ölçülməsi üçün istifadə olunur.

Hörmətlə,
Zülfiyyə

Könüllü olmaq istərdiniz?

Email ünvanınızı və adınızı qeyd edin, sizinlə əlaqə saxlayacam.