' duyurusuÇilekli" başlıklı makalesi, OpenAI tarafından dil modellerinin temel bir sınırlamasına dikkat çekti: kelimeler içindeki harfleri tek tek analiz edememeleri. Bu zayıflık, nasıl çalıştıklarıyla ilgili derin yönleri ortaya çıkarıyor.
Sayma sorunu
ChatGPT'den 'strawberry' kelimesindeki 'r'leri sayması istendiğinde, model bunu genellikle yanlış yapar. Bu hata zeka eksikliğinden değil, dil modellerinin metni analiz etme şeklinden kaynaklanmaktadır. Nedenini anlamak için, şu kavramın bilinmesi gerekir tokenizasyon.
Simgeler aracılığıyla görülen dünya
Dil modelleri kelimeleri harf dizileri olarak değil, sayılara dönüştürülmüş anlam birimleri olan 'belirteçler' olarak görür. Bu, her bir kelimenin sayısal bir kodla değiştirildiği bir kitabı okumak gibidir. Örneğin 'okul kitapları' kelimesi iki ayrı simgeye ayrılır: 'okul' ve 'kitaplar'. Bu, modelin bu kelimedeki 'o' harfini doğru saymakta neden zorlandığını açıklar - aslında onu bir kelime olarak görmez.
Aydınlatıcı bir örnek
'Okul' kelimesinin her zaman '412' sayısı ile temsil edildiği bir dil öğrendiğinizi düşünün. Birisi size '412'de kaç tane 'o' olduğunu sorsa, kelimenin tam olarak yazıldığını hiç görmeden doğru cevap veremezdik. Dil modelleri de benzer bir durumdadır: anlamları, kelimelerin birebir bileşimine erişimleri olmaksızın sayılar aracılığıyla işlerler.
Bileşik kelimelerin zorluğu
Bileşik sözcüklerde sorun daha da kötüleşmektedir. 'Timekeeper' ayrı jetonlara bölünmüştür, bu da modelin 'and' harflerinin tam konumunu belirlemesini zorlaştırmaktadır. Bu parçalanma sadece harf sayımını değil aynı zamanda iç kelime yapısının anlaşılmasını da etkilemektedir.
Çilek sorununa çözüm (belki)
Gelecekteki OpenAI modeli Strawberry, metin işlemeye yenilikçi bir yaklaşım getirerek bu sınırlamanın üstesinden gelmelidir. Model, yalnızca geleneksel tokenizasyona dayanmak yerine, kelimeleri tek tek harfler düzeyinde analiz edebilmeli ve daha hassas sayma ve analiz işlemlerine izin vermelidir.
Geleceğe yönelik çıkarımlar
Bu sorunun önemi basit harf saymanın ötesine geçmektedir. Bu ayrıntılı analiz yeteneği, yapay zeka modellerinin dilbilimsel anlayışını önemli ölçüde geliştirebilir ve karakter düzeyinde ayrıntılı metin analizi gerektiren sorunların üstesinden gelmelerini sağlayabilir.
Bu teknolojinin planlanan entegrasyonu, sadece istatistiksel kalıplar değil, dilin temel ayrıntıları hakkında daha fazla 'muhakeme' yapabilen dil modelleri yönünde büyük bir ilerleme olacaktır.