Yapay zeka dillerini öğrenemiyor! Afrika'nın unutulan dilleri tehlikede

Afrika kıtasında konuşulan binlerce dilden sadece 42'si şu anda yapay zeka dil modellerinde desteklenirken, yerel dillerin veri eksikliği ve yazı sistemi sorunları nedeniyle milyonlarca insan teknolojiden dışlanma riskiyle karşı karşıya.
Afrika'nın dilsel zenginliği, yapay zeka çağında bir soruna dönüşmüş durumda. Kıtada konuşulan binlerce dilden sadece 42'si mevcut dil modellerinde yer alırken, geri kalan diller teknolojik gelişmeden mahrum kalıyor. Bu durum, geliştiricilerin karşılaştığı temel sorundan kaynaklanıyor: dil modellerini eğitmek için gerekli olan yazılı verinin çoğu dilde neredeyse hiç bulunmaması.
Veri eksikliğinin yapay zeka üzerindeki etkisi
Bir dil modelini eğitmek için yeterli miktarda yazılı kaynak gereklidir. İngilizce gibi yaygın konuşulan dillerde bu sorun yaşanmaz; internette milyonlarca makale, kitap ve rehber kolayca bulunabilir. Ancak Afrika'nın dillerinin çoğu için durum tamamen farklıdır. Etiyopya ve Eritre'de yaklaşık 9 milyon kişi tarafından konuşulan Tigrinya dilinin Vikipedi'de sadece 335 makalesi varken, İngilizce'de 7 milyondan fazla makale mevcuttur. Gana'da en yaygın konuşulan ana dil olan Akan dilinin ise Vikipedi'de hiç makalesi yoktur. Güney Afrika'daki Pretoria Üniversitesi'nde bilgisayar bilimleri profesörü olan Vukosi Marivate, bu sayıları kullanarak mevcut veri miktarının ne kadar yetersiz olduğunu göstermektedir.
Yapay zeka alanında küresel eşitliği ilerletmek için çalışan Technēculturǎ enstitüsünün kurucusu Chinasa T. Okolo, bu durumun finansal nedenlerle ilişkili olduğunu belirtmektedir. Svahili konuşan nüfus Fince konuşanlardan çok daha fazla olmasına rağmen, Finlandiya Apple ve Google gibi teknoloji şirketleri için daha cazip bir pazardır. Bu nedenle, bu şirketler Fince için daha fazla yatırım yapmayı tercih etmektedir.
Yazı sistemleri ve dilbilim altyapısının eksikliği
Veri eksikliğinin yanı sıra, Afrika'nın 23 yazı sisteminden sadece üçü—Latin, Arap ve Ge'Ez—yapay zeka modellerinde mevcuttur. Bu durum, yazı sistemi olmayan veya standartlaştırılmamış dillerde sorun yaratmaktadır. Ruanda'nın dili olan Kinyarwanda'da, ülkenin adını yazmanın üç yaygın yolu bulunmaktadır: uRwanda, Urwanda ve u Rwanda. Yazım kuralları olmadan, en temel metin işleme bile zorlaşmaktadır. Çoğu Afrika dili sözlükler veya gramer çalışmaları aracılığıyla kodlanmamıştır, bu da yapay zeka geliştiricilerinin karşılaştığı temel zorlukların başında gelmektedir.
Güney Afrika ve Zimbabve'de konuşulan Isindebele dilinin yazılı kaynakları bulmak o kadar zor olmuştur ki, araştırmacılar istemlerini yazmaya yardımcı olması için keçi çobanları için bir hükümet kılavuzuna başvurmak zorunda kalmışlardır. Bu örnek, bazı dillerin yazılı kaynak bulmanın ne kadar güç olduğunu göstermektedir.
African Next Voices: Çözüm arayışı
Bu sorunları çözmek için, Vukosi Marivate, Güney Afrika, Kenya ve Nijerya'da 18 dilin kayıtlarını yapan African Next Voices projesine liderlik etmiştir. İki yıl boyunca, üç ekip farklı yaş ve konumlardan insanlardan 9.000 saatlik kayıt toplamış ve kıta genelindeki yapay zeka geliştiricilerinin modelleri eğitmek için kullanabileceği bir veri seti oluşturmuştur. Araştırmacılar bazen ana dil konuşanlarına okumak için metinler vermiş, ancak çoğunlukla onlara bir istem verip yanıtlarını kaydetmiş ve daha sonra yazıya dökülmüştür.
African Next Voices projesi, ChatGPT veya Gemini gibi binlerce konuyu ayrıntılı olarak kapsayabilen büyük bir dil modelini eğitmek için yeterli veri toplamadı. Ancak Marivate, kayıtlarını sağlık ve tarım gibi en önemli olduğu düşünülen belirli konulara odakladıklarını belirtmektedir. Bu yaklaşım, uzmanlaşmış modeller oluşturmaya yönelik bir stratejidir.
Uzmanlaşmış modeller ve kültürel anlayışın önemi
Küçük bir veri setini genelleştirilmiş bir model yapmak için kullanmak yüksek bir hata oranına yol açabilir. Ancak küçük, odaklanmış veri setleri uzmanlaşmış bir modelin sınırlı kapsamı içinde son derece doğru olabilir. Dağıtılmış Yapay Zeka Araştırma Enstitüsü'nde (DAIR) araştırma görevlisi olan Nyalleng Moorosi, bu durumu bir "hataya öncelik verme" sorunu olarak tanımlamaktadır. Eğer biri sadece Nairobi şehir merkezinde ne olduğunu öğrenmek istiyorsa, orada hataları tolere etmek mümkün olabilir. Ancak bankacılık veya sağlık hizmetleri gibi konularla ilgilenen modellerdeki hatalar ciddi sonuçlar doğurabilir.
Moorosi, bu modelleri oluşturan insanların sonuçları anladıklarından ve hataların ağırlığını anlamak için kültürleri yeterince anladıklarından emin olunması gerektiğini vurgulamaktadır. Kelimeler ve semboller birden fazla anlama sahiptir. Örneğin, Aziz George haçı, Birleşik Krallık'ta sağ kanat siyasetiyle ilişkilere sahipken, Gana veya Lesotho'dan biri için bu bağlantı açık olmayabilir. Bu sorun özellikle düşük kaynaklı dillerde yaygındır.
DAIR tarafından yapılan bir çalışma, sosyal medya web sitelerinin Etiyopya'daki etnik şiddetle ilgili nefret söylemini tanımayıp kaldırmada başarısız olduğunu bulmuştur. Bu başarısızlık, kısmen otomatik sistemlerin ve insan moderatörlerin kullanılan argo terimlere aşina olmamasından kaynaklanmaktadır. Moorosi, bu kültürel anlayış olmadan, yapay zeka sistemlerinin performans göstermesini ve inançlara ve değerlere uygun yargılarda bulunmasını sağlamanın imkansız olduğunu söylemektedir.
Altyapı sorunları ve gelecek endişeleri
Veri eksikliği Afrikalı yapay zeka geliştiricilerinin karşılaştığı tek zorluk değildir. Veri merkezlerinin eksikliği de önemli bir sorundur. Afrika Birliği 2024'te kıtanın veri merkezi talebinin sadece yüzde 10'unun karşılandığını uyarmıştır. Bu durum, Afrika'nın yapay zeka umutları için bir darboğaz oluşturmaktadır. Marivate için temel endişe, eğer bu daha küçük diller için modeller yapılmazsa, bu dillerin "kaybolacak" olmasıdır. Geliştiriciler yazı sistemleri bile olmayabilecek diller için veri setleri oluşturmaya gelince, modelin kendisinin değişmesi gerekecektir.
Birçok Afrikalı, dil modelleri tarafından zaten desteklenen Afrika ve Avrupa dilleri de dahil olmak üzere birden fazla dil konuşsa da, Moorosi, amacın yapay zekayı tüm dillerde erişilebilir kılmak olması gerektiğine inanmaktadır. Tek konuşanı olan diller için bile, tüm diller temsil veya koruma hak etmektedir. Okolo ise, daha fazla dil modeli geliştirilmezse, kıta genelindeki etki korkunç olabileceğini uyarmaktadır. İnsanların fırsatlardan dışlanmaya devam etmesi kaçınılmaz olacaktır.
Yeni yaklaşımlar ve gelecek perspektifi
Bundan kaçınmak için, Okolo, kıta genelindeki yapay zeka geliştiricilerinin "ilk etapta model geliştirmeyi üstlenme şeklimizi yeniden hayal etmemiz gerektiğini" söylemektedir. Marivate'nin African Next Voices projesi, bu yeni yaklaşımın bir örneğidir. Proje verilerini toplamayı ve yazıya dökmeyi yeni bitirmiştir. Marivate şu anda yeni diller üzerinde çalışmadıklarını söylese de, hangisinin sırada olabileceğini şimdiden düşünmektedir. Kıta kendi yapay zeka altyapısını ve yeteneklerini geliştirmeye çalışırken, bu 42 dilden birini konuşmayanlar geride kalma riskiyle karşı karşıyadır. Gelecek, bu sorunun nasıl çözüleceğine bağlı olacaktır.
- Popüler Haberler -
Kuyruklu yıldız Dünya'ya en yakın noktadan geçecek
Instagram Reels artık televizyonlara geliyor
OpenAI, ChatGPT'nin görüntü oluşturma özelliğini tamamen yeniliyor
Teknoloji Gücü programı! ABD'de 1.000 yapay zeka uzmanı işe alınacak
Akıllı telefon alacaklara gün doğdu: Fiyatlar 9.500 TL'den başlıyor! Samsung, Xiaomi…
Apple iOS 26.2 ile iPhone'unuzu tamamen değiştirecek 5 gizli özellik keşfedin



