Newsletter

Akıl Yürütme Yanılsaması: Yapay Zeka Dünyasını Sarsan Tartışma

Apple, LLM'nin klasik problemlerin küçük varyasyonlarında (Hanoi Kulesi, nehir geçişi) nasıl başarısız olduğunu gösteren iki yıkıcı makale -'GSM-Symbolic' (Ekim 2024) ve 'The Illusion of Thinking' (Haziran 2025)- yayınlar: 'sadece sayısal değerler değiştirildiğinde performans düşer'. Karmaşık Hanoi Kulesi'nde sıfır başarı. Ancak Alex Lawsen (Open Philanthropy) başarısız metodolojiyi gösteren "Düşünme Yanılsaması" ile karşılık veriyor: başarısızlıklar muhakeme çöküşleri değil token çıktı sınırlarıydı, otomatik komut dosyaları kısmi doğru çıktıları yanlış sınıflandırdı, bazı bulmacalar matematiksel olarak çözülemezdi. Claude/Gemini/GPT, hamleleri listelemek yerine özyinelemeli işlevlerle testleri tekrarlayarak Hanoi Kulesi'nin 15 kaydını çözdü. Gary Marcus Apple'ın 'dağıtım kayması' tezini benimsiyor, ancak WWDC öncesi zamanlama makalesi stratejik soruları gündeme getiriyor. İş dünyasına etkileri: Kritik görevler için yapay zekaya ne kadar güvenilmeli? Çözüm: nörosembolik yaklaşımlar örüntü tanıma+dil için sinir ağları, biçimsel mantık için sembolik sistemler. Örnek: YZ muhasebesi "ne kadar seyahat masrafı var?" sorusunu anlar, ancak SQL/hesaplamalar/vergi denetimleri = deterministik kod.
Fabio Lauria
Electe'nin Ceo'su ve Kurucusu‍
YZ muhakemesi gerçeklikle buluştuğunda: Robot mantık kuralını doğru bir şekilde uyguluyor ancak basketbol topunu portakal olarak tanımlıyor. LLM'lerin gerçek bir anlayışa sahip olmadan mantıksal süreçleri nasıl simüle edebileceklerine dair mükemmel bir metafor.

Geçtiğimiz birkaç ay boyunca yapay zeka topluluğu, Apple tarafından yayınlanan iki etkili araştırma makalesinin tetiklediği hararetli bir tartışmanın sancılarını yaşadı. Birincisi, 'GSM-Sembolik' (Ekim 2024) ve ikincisi, 'Düşünme Yanılsaması' (Haziran 2025), Büyük Dil Modellerinin iddia edilen muhakeme yeteneklerini sorgulayarak sektörde karışık tepkilere yol açtı.

Bir önceki yazımızda da analiz edildiği üzere "İlerleme yanılsaması: genel yapay zekayı başaramadan simüle etmek".Yapay akıl yürütme meselesi, makinelerde zeka olarak gördüğümüz şeyin tam kalbine dokunuyor.

Apple Araştırmaları Ne Diyor?

Apple araştırmacıları, bir cevap vermeden önce ayrıntılı muhakeme izleri oluşturan modeller olan Büyük Muhakeme Modelleri (LRM) üzerinde sistematik bir analiz gerçekleştirdi. Sonuçlar şaşırtıcı ve birçokları için endişe vericiydi.

Gerçekleştirilen Testler

Çalışma, en gelişmiş modelleri aşağıdaki gibi klasik algoritmik bulmacalara tabi tutmuştur:

  • Hanoi Kulesi: İlk kez 1957 yılında çözülen bir matematik bulmacası
  • Nehir geçişi problemleri: Belirli kısıtlamalara sahip mantık bulmacaları
  • GSM-Sembolik Benchmark: İlköğretim düzeyindeki matematik problemlerinin varyasyonları

Klasik bulmacalarla akıl yürütmenin test edilmesi: Çiftçi, kurt, keçi ve lahana problemi, Apple'ın çalışmalarında LLM'lerin akıl yürütme yeteneklerini değerlendirmek için kullanılan mantık bulmacalarından biridir. Zorluk, yalnız bırakıldığında kurdun keçiyi veya keçinin lahanayı yemesinden kaçınırken doğru geçiş sırasını bulmakta yatmaktadır. Algoritmik anlayış ile kalıp ezberleme arasındaki farkı ayırt etmek için basit ama etkili bir test.

Tartışmalı Sonuçlar

Sonuçlar, problem formülasyonundaki küçük değişikliklerin bile performansta önemli farklılıklara yol açtığını göstererek akıl yürütmede endişe verici bir kırılganlık olduğunu ortaya koymuştur. Rapor edildiği üzere AppleInsider kapsamı"GSM-Sembolik kıyaslama sorularındaki sadece sayısal değerler değiştirildiğinde tüm modellerin performansı düşmektedir".

Karşı Saldırı: Düşünme Yanılsaması

Yapay zeka topluluğundan yanıtın gelmesi uzun sürmedi. Open Philanthropy'den Alex Lawsen, Anthropic'ten Claude Opus ile işbirliği içinde, aşağıdaki başlık altında ayrıntılı bir çürütme yayınladı "Düşünme Yanılsaması'.Apple çalışmasının metodolojilerine ve sonuçlarına itiraz ediyor.

Ana İtirazlar

  1. Çıktı Sınırları Göz Ardı Edildi: 'Muhakeme çöküşüne' atfedilen birçok başarısızlık aslında model çıktı belirteci sınırlarından kaynaklanıyordu
  2. Yanlış Değerlendirme: Otomatik komut dosyaları ayrıca kısmi ancak algoritmik olarak doğru çıktıları toplam başarısızlık olarak sınıflandırdı
  3. İmkansız Problemler: Bazı bulmacalar matematiksel olarak çözülemezdi, ancak modeller bunları çözemedikleri için cezalandırıldı

Doğrulama Testleri

Lawsen testleri alternatif metodolojilerle tekrarladığında - modellerden tüm hamleleri listelemek yerine özyinelemeli fonksiyonlar üretmelerini istediğinde - sonuçlar önemli ölçüde farklıydı. Claude, Gemini ve GPT gibi modeller, Apple'ın sıfır başarı bildirdiği karmaşıklığın çok ötesinde, Hanoi Kulesi problemlerini 15 kayıtla doğru bir şekilde çözdü.

Tartışmada Yetkili Sesler

Gary Marcus: Tarihsel Eleştirmen

Gary MarcusLLM'lerin akıl yürütme becerilerini uzun süredir eleştiren Marcus, Apple'ın bulgularını 20 yıllık tezinin doğrulanması olarak kabul etti. Marcus'a göre, LLM'ler 'zaten çözülmüş problemlerin iyi çözücüleri' olarak kalırken, 'dağıtım kayması' - eğitim verilerinin ötesine genelleme yeteneği - ile mücadele etmeye devam ediyor.

LocalLlama Topluluğu

Tartışma ayrıca aşağıdaki gibi uzmanlaşmış topluluklara da yayılmıştır Reddit'te LocalLlamageliştiricilerin ve araştırmacıların açık kaynak modelleri ve yerel uygulamalar için pratik sonuçları tartıştığı bir platformdur.

Tartışmanın Ötesinde: Şirketler İçin Ne Anlama Geliyor?

Stratejik Çıkarımlar

Bu tartışma sadece akademik bir tartışma değildir. Doğrudan etkileri vardır:

  • Üretimde Yapay Zeka Dağıtımı: Kritik görevler için modellere ne kadar güvenebiliriz?
  • Ar-Ge yatırımları: Bir sonraki atılım için kaynaklar nereye odaklanmalı?
  • Paydaşlarla İletişim: YZ yeteneklerine ilişkin gerçekçi beklentiler nasıl yönetilir?

Nörosembolik Yol

Birkaç makalede vurgulandığı gibi tekni̇k bi̇lgi̇lerbirleştiren hibrit yaklaşımlara giderek daha fazla ihtiyaç duyulmaktadır:

  • Örüntü tanıma ve dil anlama için sinir ağları
  • Algoritmik akıl yürütme ve biçimsel mantık için sembolik sistemler

Önemsiz bir örnek: muhasebeye yardımcı olan bir yapay zeka asistanı. Dil modeli, "bu ay seyahat için ne kadar harcadım?" diye sorduğunuzu anlar ve ilgili parametreleri çıkarır (kategori: seyahat, dönem: bu ay). Ancak veritabanını sorgulayan, toplamı hesaplayan ve mali kısıtlamaları kontrol eden SQL sorgusu? Bu, nöral model tarafından değil, deterministik kod tarafından yapılır.

Zamanlama ve Stratejik Bağlam

Apple makalesinin WWDC'den kısa bir süre önce yayınlanmış olması gözlemcilerin dikkatinden kaçmadı ve stratejik motivasyonlar hakkında soru işaretleri yarattı. Olarak9to5Mac tarafından analiz"Apple makalesinin zamanlaması - WWDC'den hemen önce - birkaç kaş kaldırdı. Bu bir araştırma dönüm noktası mıydı, yoksa Apple'ı daha geniş yapay zeka ortamında yeniden konumlandırmak için stratejik bir hamle miydi?"

Gelecek için Dersler

Araştırmacılar için

  • Deneysel Tasarım: Mimari sınırlamalar ve uygulama kısıtlamaları arasında ayrım yapmanın önemi
  • Titiz Değerlendirme: Bilişsel yetenekleri pratik kısıtlamalardan ayıran sofistike ölçütlere duyulan ihtiyaç
  • Metodolojik Şeffaflık: Deneysel Düzenekleri ve Sınırlamaları Tam Olarak Belgeleme Yükümlülüğü

Şirketler için

  • Gerçekçi Beklentiler: Gelecekteki Potansiyelden Vazgeçmeden Mevcut Sınırların Tanınması
  • Hibrit Yaklaşımlar: Farklı teknolojilerin güçlü yönlerini bir araya getiren çözümlere yatırım yapmak
  • Sürekli Değerlendirme: Gerçek hayattaki kullanım senaryolarını yansıtan test sistemleri uygulayın

Sonuçlar: Belirsizliğin Üstesinden Gelmek

Apple'ın makalelerinin tetiklediği tartışma, yapay zekayı anlamanın henüz erken aşamalarında olduğumuzu hatırlatıyor. Bizim de belirttiğimiz gibi önceki̇ makaleSimülasyon ve gerçek akıl yürütme arasındaki ayrım, zamanımızın en karmaşık zorluklarından biri olmaya devam etmektedir.

Asıl ders, LLM'lerin insani anlamda 'muhakeme' yapıp yapamayacağı değil, sınırlamalarını telafi ederken güçlü yönlerinden yararlanan sistemleri nasıl oluşturabileceğimizdir. Yapay zekanın halihazırda tüm sektörleri dönüştürdüğü bir dünyada, soru artık bu araçların 'akıllı' olup olmadığı değil, onları nasıl etkili ve sorumlu bir şekilde kullanacağımızdır.

Kurumsal yapay zekanın geleceği muhtemelen tek bir devrimci yaklaşımda değil, birbirini tamamlayan çeşitli teknolojilerin akıllıca düzenlenmesinde yatacaktır. Ve bu senaryoda, araçlarımızın yeteneklerini eleştirel ve dürüst bir şekilde değerlendirme becerisi, başlı başına bir rekabet avantajı haline geliyor.

Kuruluşunuzun yapay zeka stratejisi ve sağlam çözümlerin uygulanmasına ilişkin içgörüler için uzman ekibimiz özelleştirilmiş danışmanlıklar için hazırdır.

Kaynaklar ve Referanslar:

İşletmelerin büyümesi için kaynaklar

9 Kasım 2025

Tüketici Uygulamaları için Yapay Zeka Yönetmeliği: Yeni 2025 Yönetmeliğine Nasıl Hazırlanılır?

2025, YZ'nin 'Vahşi Batı' döneminin sonunu işaret ediyor: YZ Yasası AB, 2 Şubat 2025'ten itibaren YZ okuryazarlığı yükümlülükleri, 2 Ağustos'tan itibaren yönetişim ve GPAI ile Ağustos 2024'ten itibaren faaliyete geçti. Kaliforniya, SB 243 (Sewell Setzer'in intiharından sonra doğdu, 14 yaşında chatbot ile duygusal ilişki geliştirdi) ile zorlayıcı ödül sistemlerinin yasaklanması, intihar düşüncesinin tespiti, her 3 saatte bir 'ben insan değilim' hatırlatması, bağımsız kamu denetimleri, 1.000 $/ihlal cezaları ile öncülük ediyor. SB 420, 'yüksek riskli otomatik kararlar' için insan incelemesi itiraz haklarıyla birlikte etki değerlendirmeleri gerektirmektedir. Gerçek Uygulama: Noom 2022'de insan koçlar gibi gösterilen botlar için 56 milyon dolar tazminat ödemiştir. Ulusal eğilim: Alabama, Hawaii, Illinois, Maine, Massachusetts yapay zeka chatbot'larını bilgilendirmemeyi UDAP ihlali olarak sınıflandırıyor. Üç kademeli risk-kritik sistemler yaklaşımı (sağlık/ulaşım/enerji) dağıtım öncesi sertifikasyon, tüketiciye yönelik şeffaf açıklama, genel amaçlı kayıt+güvenlik testi. Federal ön muafiyet olmaksızın düzenleyici yamalı bohça: birden fazla eyalette faaliyet gösteren şirketler değişken gereklilikler arasında gezinmek zorundadır. Ağustos 2026'dan itibaren AB: Açık olmadığı sürece kullanıcıları YZ etkileşimi hakkında bilgilendirin, YZ tarafından oluşturulan içerik makine tarafından okunabilir olarak etiketlenir.
9 Kasım 2025

Yaratılmamış olanı düzenlemek: Avrupa teknolojik ilgisizlik riskiyle karşı karşıya mı?

**BAŞLIK: Avrupa Yapay Zeka Yasası - Neyin Gelişmeyeceğini Kimin Düzenlediği Paradoksu** **ÖZET:** Avrupa, yapay zeka alanındaki küresel yatırımların yalnızca onda birini çekiyor ancak küresel kuralları dikte ettiğini iddia ediyor. Bu "Brüksel Etkisi "dir - inovasyonu teşvik etmeden pazar gücü yoluyla gezegen ölçeğinde düzenlemeler dayatmak. Yapay Zeka Yasası 2027 yılına kadar kademeli bir takvimle yürürlüğe giriyor, ancak çok uluslu teknoloji şirketleri yaratıcı kaçınma stratejileriyle yanıt veriyor: eğitim verilerini ifşa etmekten kaçınmak için ticari sırlara başvurmak, teknik olarak uyumlu ancak anlaşılmaz özetler üretmek, sistemleri 'yüksek risk'ten 'minimum risk'e düşürmek için öz değerlendirmeyi kullanmak, daha az sıkı kontrollere sahip üye ülkeleri seçerek forum alışverişi yapmak. Ülke dışı telif hakkı paradoksu: AB, OpenAI'nin Avrupa dışındaki eğitimler için bile Avrupa yasalarına uymasını talep ediyor - uluslararası hukukta daha önce hiç görülmemiş bir ilke. 'İkili model' ortaya çıkıyor: aynı YZ ürünlerinin sınırlı Avrupa versiyonlarına karşı gelişmiş küresel versiyonları. Gerçek risk: Avrupa, küresel inovasyondan izole edilmiş bir 'dijital kale' haline gelir ve Avrupa vatandaşları daha düşük teknolojilere erişir. Kredi puanlama davasında Adalet Divanı 'ticari sır' savunmasını çoktan reddetti, ancak yorumsal belirsizlik çok büyük olmaya devam ediyor - 'yeterince ayrıntılı özet' tam olarak ne anlama geliyor? Kimse bilmiyor. Çözülmemiş son soru: AB, ABD kapitalizmi ile Çin devlet kontrolü arasında etik bir üçüncü yol mu yaratıyor, yoksa sadece bürokrasiyi rekabet etmediği bir alana mı ihraç ediyor? Şimdilik: YZ düzenlemelerinde dünya lideri, gelişiminde marjinal. Geniş bir program.
9 Kasım 2025

Outliers: Veri Biliminin Başarı Hikayeleriyle Buluştuğu Yer

Veri bilimi paradigmayı tersine çevirdi: aykırı değerler artık 'ortadan kaldırılması gereken hatalar' değil, anlaşılması gereken değerli bilgilerdir. Tek bir aykırı değer doğrusal bir regresyon modelini tamamen bozabilir - eğimi 2'den 10'a değiştirebilir - ancak bunu ortadan kaldırmak veri kümesindeki en önemli sinyali kaybetmek anlamına gelebilir. Makine öğrenimi sofistike araçlar sunar: İzolasyon Ormanı rastgele karar ağaçları oluşturarak aykırı değerleri izole eder, Yerel Aykırı Değer Faktörü yerel yoğunluğu analiz eder, Otomatik kodlayıcılar normal verileri yeniden yapılandırır ve yeniden üretemediklerini rapor eder. Küresel aykırı değerler (tropik bölgelerde -10°C sıcaklık), bağlamsal aykırı değerler (yoksul bir mahallede 1.000 € harcama), kolektif aykırı değerler (saldırıya işaret eden senkronize ani trafik ağı) vardır. Gladwell ile paralel: '10.000 saat kuralı' tartışmalı - Paul McCartney'in 'birçok grup Hamburg'da 10.000 saat çalışıp başarılı olamadı, teori yanılmaz değil' sözü. Asya'nın matematiksel başarısı genetik değil kültüreldir: Çin'in sayısal sistemi daha sezgiseldir, pirinç ekimi Batı tarımının toprak genişlemesine karşı sürekli gelişme gerektirir. Gerçek uygulamalar: Birleşik Krallık bankaları gerçek zamanlı anormallik tespiti yoluyla %18 potansiyel kayıplarını geri kazanıyor, üretim insan denetiminin gözden kaçıracağı mikroskobik kusurları tespit ediyor, sağlık hizmetleri klinik deney verilerini %85+ anormallik tespiti hassasiyetiyle doğruluyor. Son ders: Veri bilimi aykırı değerleri ortadan kaldırmaktan onları anlamaya doğru ilerledikçe, alışılmadık kariyerleri düzeltilmesi gereken anormallikler olarak değil, üzerinde çalışılması gereken değerli yörüngeler olarak görmeliyiz.