Çilek Probleminden Model o1'e: OpenAI Tokenizasyon Sınırını (Kısmen) Nasıl Çözdü?
2024 yazında, viral bir internet meme'i dünyanın en gelişmiş dil modellerini utandırdı: "'Çilek' kelimesinde kaç tane 'r' vardır?" Doğru cevap üçtür, ancak GPT-4o inatla "iki" cevabını vermiştir. Görünüşte önemsiz olan bu hata, dil modellerinin temel bir sınırlılığını ortaya çıkardı: kelimeler içindeki harfleri tek tek analiz edememeleri.
12 Eylül 2024'te OpenAI, özellikle bu tür sınırlamaların üstesinden gelmek için tasarlanan yeni bir 'akıl yürütme modelleri' serisinin ilk modeli olan ve 'Çilek' kod adıyla bilinen o1'i piyasaya sürdü. Ve evet, bu isim tesadüf değil: bir OpenAI araştırmacısının da doğruladığı gibi, o1 nihayet 'çilek' kelimesindeki 'r'yi doğru bir şekilde saymayı başarıyor.
Ancak çözüm orijinal makalenin hayal ettiği gibi değil. OpenAI modele kelimeleri harf harf analiz etmeyi 'öğretmedi'. Bunun yerine, tamamen farklı bir yaklaşım geliştirdi: modele cevap vermeden önce 'akıl yürütmeyi' öğretmek.
Sorun, dil modellerinin metni işlediği temel süreç olan tokenizasyondan kaynaklanmaktadır. Mayıs 2025'te arXiv'de yayınlanan teknik bir makalede ('The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models') açıklandığı gibi, modeller kelimeleri harf dizileri olarak değil, sayılara dönüştürülmüş anlam birimleri olan 'token'lar olarak görüyor.
GPT-4 "strawberry" kelimesini işlediğinde, belirteçleştiricisi onu üç parçaya ayırır: [str][aw][berry], her biri belirli bir sayısal kimliğe sahiptir (496, 675, 15717). Model için "strawberry" 10 harften oluşan bir dizi değil, 3 sayısal belirteçten oluşan bir dizidir. Sanki her kelimenin bir kodla değiştirildiği bir kitap okuyormuş ve sonra birisi ondan daha önce hiç yazılı olarak görmediği bir koddaki harfleri saymasını istiyormuş gibi.
Bileşik sözcükler söz konusu olduğunda sorun daha da büyümektedir. "Timekeeper" ayrı jetonlara bölünmüştür, bu da modelin açık bir muhakeme süreci olmadan harflerin tam konumunu belirlemesini imkansız hale getirir. Parçalanma sadece harf sayımını değil aynı zamanda kelimelerin iç yapısının anlaşılmasını da etkilemektedir.
OpenAI o1 sorunu beklenmedik bir şekilde çözdü: teknik olarak zor olan ve modelin verimliliğini tehlikeye atacak olan tokenizasyonu değiştirmek yerine, sisteme 'düşünce zinciri muhakemesi' adı verilen bir teknik kullanarak 'konuşmadan önce düşünmeyi' öğretti.
o1'e 'strawberry' kelimesinde kaç tane 'r' olduğunu sorduğunuzda, model hemen cevap vermez. Kullanıcıdan gizlenen bir 'muhakeme zincirini' dahili olarak işlemek için birkaç saniye, hatta bazen karmaşık sorular için dakikalar harcar. Bu süreç şunları yapmasını sağlar:
OpenAI araştırmacısı Noam Brown'ın X'teki bir dizi gönderide açıkladığı gibi: "o1, özel bir düşünce zinciri aracılığıyla yanıt vermeden önce 'düşünmek' için pekiştirmeli öğrenme ile eğitilmiştir. Model, eğitim sırasında sadece nihai doğru cevap için değil, muhakeme sürecindeki her doğru adım için ödüller alır.
Sonuçlar etkileyici ancak maliyetli. Uluslararası Matematik Olimpiyatı için yapılan bir eleme sınavında o1, GPT-4o'nun %13'üne karşılık problemlerin %83'ünü doğru çözmüştür. Fen bilimlerinde doktora düzeyindeki sorularda GPT-4o'nun %56'sına karşılık %78 doğruluk elde etti. Ancak bu gücün bir bedeli var: o1'in GPT-4o'nun 3 saniyede çözdüğü soruları yanıtlaması 30+ saniye sürüyor ve GPT-4o için 5 dolara karşılık milyon token girişi başına 15 dolara mal oluyor.
Teknik sihirli değil, metodiktir. Bir istem aldığında, o1 dahili olarak kullanıcıya gösterilmeyen uzun bir dizi 'düşünce' üretir. 'Çilek'teki 'r' problemi için iç süreç şöyle olabilir:
"Öncelikle kelime yapısını anlamam gerekiyor. Strawberry [str][aw][berry] olarak tokenize edilebilir. 'r' harfini saymak için kelimenin tamamını karakter seviyesinde yeniden yapılandırmam gerekiyor. Str şunları içerir: s-t-r (1 'r'). Aw şunları içerir: a-w (0 'r'). Berry şunları içeriyor: b-e-r-y (2 'r'). Toplam: 1+0+2 = 3 'r'. Kontrol ediyorum: çilek = s-t-r-a-w-b-e-r-r-y. 'r'leri sayıyorum: pozisyon 3, pozisyon 8, pozisyon 9. Onaylandı: 3 'r'."
Bu iç muhakeme tasarım gereği gizlidir. OpenAI, kullanıcıların o1'in düşünce zincirini ortaya çıkarmaya çalışmasını, istemleri izlemesini ve bu kuralı ihlal edenlerin erişimini potansiyel olarak iptal etmesini açıkça yasaklıyor. Şirket, yapay zeka güvenliği ve rekabet avantajı gerekçelerini öne sürse de bu karar, dil modelleriyle çalışan geliştiriciler tarafından şeffaflık kaybı olarak eleştirildi.
İlerlemeye rağmen, o1 sorunu tamamen çözmüş değildir. Ocak 2025'te Language Log'da yayınlanan araştırma, çeşitli modelleri daha karmaşık bir görev üzerinde test etti: "Her cümlenin ikinci harfinin 'KOD' kelimesini oluşturduğu bir paragraf yazın".
o1 standart ($20/ay), her kelimenin baş harfini yanlışlıkla 'ikinci harf' olarak sayarak başarısız oldu. o1-pro ($200/ay) sorunu çözdü... 4 dakika 10 saniye 'düşündükten' sonra. Ocak 2025'te piyasayı sarsan Çin modeli DeepSeek R1, o1 standardı ile aynı hatayı yaptı.
Temel sorun hala devam ediyor: modeller metni hala harflerle değil, belirteçlerle görüyor. o1 bu sınırlamayı akıl yürütme yoluyla "aşmayı" öğrendi, ancak ortadan kaldırmadı. Bir araştırmacının Language Log'da belirttiği gibi: "Tokenleştirme, dil modellerinin özünün bir parçasıdır; herhangi bir yanlış cevap için açıklama tam olarak 'iyi, tokenleştirme' dir".
Mayıs 2025'te arXiv'de yayınlanan önemli bir makale ('The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models') bu olguyu teorik bir perspektiften analiz etmektedir. Araştırmacılar, kontrollü bağlamlarda karakter düzeyinde akıl yürütmeyi izole eden 19 sentetik görev oluşturarak, bu yeteneklerin aniden ve ancak eğitimin sonlarında ortaya çıktığını gösterdiler.
Çalışma, karakter kompozisyonu öğrenmenin sağduyu bilgisini öğrenmekten temelde farklı olmadığını, model kritik bir örnek ve bağlantı kitlesine ulaştığında 'kavramsal süzülme' süreçleri yoluyla ortaya çıktığını öne sürmektedir.
Araştırmacılar, alt kelime tabanlı modellerin tümevarım avantajlarını korurken karakter düzeyinde muhakemeyi önemli ölçüde geliştiren hafif bir mimari modifikasyon önermektedir. Bununla birlikte, bu değişiklikler deneysel kalmaktadır ve ticari modellerde uygulanmamıştır.
Çilek vakası, dil modellerinin güvenilirliği hakkında önemli bir ders vermektedir: bunlar deterministik hesap makineleri değil, olasılıksal araçlardır. Mark Liberman'ın Language Log'da belirttiği gibi: "Bir şeyleri saymayı içeren görevlerde mevcut herhangi bir yapay zeka sisteminin yanıtına güvenme konusunda dikkatli olmalısınız".
Bu, modellerin işe yaramaz olduğu anlamına gelmez. Bir yorumcunun belirttiği gibi: 'Bir kedinin salatalıktan korkmak gibi aptalca bir hata yapması, kemirgenleri binadan uzak tutmak gibi çok daha zor bir görevde kediye güvenmememiz gerektiği anlamına gelmez'. Harfleri sistematik olarak saymak istiyorsanız dil modelleri doğru araç değildir, ancak binlerce podcast transkriptini otomatik olarak işlemek ve konukların ve sunucuların adlarını çıkarmak için mükemmeldir.
Mars'a uzay aracı indirmek, ilaç dozajlarını hesaplamak, yasal uygunluğu doğrulamak gibi mutlak hassasiyet gerektiren görevler için mevcut dil modelleri, insan gözetimi veya harici doğrulama olmadan yetersiz kalmaktadır. Olasılıksal yapıları onları örüntü eşleştirme ve yaratıcı üretim için güçlü kılarken, hatanın kabul edilemeyeceği görevler için güvenilmez kılmaktadır.
OpenAI, muhakeme yeteneklerini daha da artırmak için 'saatlerce, günlerce ve hatta haftalarca muhakeme eden' o1 modellerini denemeyi planladığını belirtti. Aralık 2024'te o3 duyuruldu (mobil operatör O2 ile ticari marka çatışmalarını önlemek için o2 adı atlandı) ve Mart 2025'te OpenAI'nin bugüne kadarki en pahalı yapay zeka modeli olan o1-pro'nun API'si, girdi olarak milyon token başına 150 dolar ve çıktı olarak milyon başına 600 dolar fiyatla piyasaya sürüldü.
Yön açık: OpenAI, modelleri daha da büyütmek (ölçeklendirme) yerine, daha uzun süre 'düşünmelerini' sağlamak için yatırım yapıyor (test zamanı hesaplama). Bu yaklaşım, giderek daha büyük modelleri eğitmekten daha enerjik ve hesaplama açısından daha sürdürülebilir olabilir.
Ancak açık bir soru var: bu modeller gerçekten 'akıl yürütüyor' mu yoksa sadece daha sofistike istatistiksel modeller aracılığıyla akıl yürütmeyi mi simüle ediyor? Ekim 2024'te yayınlanan Apple araştırması, o1 gibi modellerin kendi eğitim verilerinden akıl yürütme adımlarını kopyalayabildiğini bildirdi. Matematiksel problemlerdeki sayıları ve isimleri değiştirerek ya da aynı problemi yeniden çalıştırarak, modeller önemli ölçüde daha kötü performans gösterdi. Dışarıdan ama mantıksal olarak alakasız bilgiler eklendiğinde, performans bazı modeller için %65 oranında düşmüştür.
Çilek sorunu ve o1 çözümü, mevcut dil modellerinin hem potansiyelini hem de doğal sınırlamalarını ortaya koymaktadır. OpenAI, hedeflenen eğitim ve ek işlem süresi sayesinde modellerin tokenizasyonun belirli yapısal sınırlamalarının üstesinden gelebileceğini göstermiştir. Ancak bunu ortadan kaldırmadılar, atlattılar.
Kullanıcılar ve geliştiriciler için pratik ders açıktır: bu sistemlerin nasıl çalıştığını - neyi iyi yaptıklarını ve nerede başarısız olduklarını - anlamak, onları etkili bir şekilde kullanmak için çok önemlidir. Dil modelleri olasılıksal görevler, örüntü eşleştirme, yaratıcı üretim ve bilgi sentezi için harika araçlardır. Ancak deterministik hassasiyet gerektiren görevler için - hesaplama, hesaplama, belirli gerçekleri doğrulama - harici denetim veya tamamlayıcı araçlar olmadan güvenilmez kalırlar.
'Strawberry' ismi bu temel sınırlamanın ironik bir hatırlatıcısı olarak kalacaktır: dünyanın en gelişmiş yapay zeka sistemleri bile altı yaşındaki bir çocuğun anında çözebileceği sorularda tökezleyebilir. Aptal oldukları için değil, bizden son derece farklı şekillerde 'düşündükleri' için ve belki de onlardan insanlar gibi düşünmelerini beklemekten vazgeçmeliyiz.
Kaynaklar: