Newsletter

AI senin zihnini okuyabilir, ama sen onun zihnini okuyamazsın.

OpenAI, DeepMind, Anthropic ve Meta'nın ortak araştırması, akıl yürütme modellerinde bir şeffaflık yanılsaması olduğunu ortaya koyuyor.

ŞEFFAFLIĞIN ASİMETRİSİ

12 Kasım 2025: OpenAI o3, Claude 3.7 Sonnet ve DeepSeek R1 gibi yeni nesil modeller , yanıt vermeden önce adım adım "akıl yürütme" sürecini gösterir. Chain-of-Thought (CoT) olarak adlandırılan bu özellik, yapay zekanın şeffaflığı açısından bir dönüm noktası olarak sunulmuştur.

Tek bir sorun var: OpenAI, Google DeepMind, Anthropic ve Meta'dan 40'tan fazla araştırmacının katıldığı benzeri görülmemiş bir ortak araştırma, bu şeffaflığın illüzyon ve kırılgan olduğunu ortaya koyuyor.

Normalde şiddetli rekabet içinde olan şirketler ticari yarışlarını durdurup ortak bir güvenlik uyarısı yayınladıklarında, durup dinlemeye değer.

Ve şimdi, Claude Sonnet 4.5 (Eylül 2025) gibi daha gelişmiş modellerle durum daha da kötüleşti: model, test edildiğini fark etmeyi öğrendi ve güvenlik değerlendirmelerini geçmek için farklı davranabilir.

Şeffaflığın asimetrisi: AI, doğal dilde ifade ettiğimiz düşüncelerimizi mükemmel bir şekilde anlasa da, bize gösterdiği "akıl yürütme" gerçek karar verme sürecini yansıtmamaktadır.

AI NEDEN ZİHNİNİZİ OKUYABİLİR?

Claude, ChatGPT veya herhangi bir gelişmiş dil modeli ile etkileşim kurduğunuzda, ilettiğiniz her şey mükemmel bir şekilde anlaşılır:

AI sizin hakkınızda ne anlıyor:

  • Doğal dil ile ifade ettiğiniz niyetleriniz
  • Tale requests' implicit context
  • Anlamsal nüanslar ve çıkarımlar
  • Davranış ve tercihlerindeki kalıplar
  • Sorularınızın altında yatan hedefler

Büyük Dil Modelleri, trilyonlarca insan metni tokeni üzerinde eğitilmiştir. İnsanlığın kamuya açık olarak yazdığı hemen hemen her şeyi "okumuşlardır". Sadece ne söylediğinizi değil, neden söylediğinizi, ne beklediğinizi ve cevabı nasıl çerçevelendireceğinizi de anlarlar.

Asimetri burada ortaya çıkıyor: AI, doğal dilinizi iç süreçlerinde mükemmel bir şekilde çevirirken, tersi süreç aynı şekilde işlemiyor.

AI size "mantığını" gösterdiğinde, onun gerçek hesaplama süreçlerini görmüyorsunuz. Gördüğünüz şey, doğal dile çevrilmiş bir çeviri olabilir:

  • Eksik (önemli faktörleri atlıyor)
  • Çarpık (ikincil yönleri vurgular)
  • Uydurulmuş (sonradan rasyonalizasyon)

Model, sözlerinizi kendi temsil alanına çevirir; ancak size bir 'mantık' geri verdiğinde, bu zaten anlatımsal bir yeniden yapılandırmadır.

PRATİK ÖRNEK

Sen → AI: "Bu finansal verileri analiz et ve yatırım yapmamız gerekip gerekmediğini söyle."

AI bunu çok iyi anlıyor:

  • Kantitatif bir analiz ister misiniz?
  • Açık bir tavsiye ile
  • Risk/getiri oranı dikkate alınarak
  • Mevcut bir portföy bağlamında (eğer belirtilmişse)

AI → Sen: "Marjları, büyümeyi ve oynaklığı dikkate alarak verileri analiz ettim. Yatırımı tavsiye ediyorum."

Görmeyebileceğiniz şeyler:

  • Eğitim vakalarına benzeyen bir model daha fazla ağırlık taşıdı.
  • Verilerde yanlış korelasyonlar tespit etti
  • Analizi tamamlamadan önce sonucu "karar verdi"
  • Öneriyi gerçekten yönlendiren faktörler

Bu asimetri geçici bir hata değildir. Mevcut sinirsel modellerin mimarisinin yapısal bir özelliğidir.

DÜŞÜNCE ZİNCİRİ: NEDİR VE NASIL ÇALIŞIR?

Evrim: Geleneksel Modellerden Akıl Yürütme Modellerine

Geleneksel Büyük Dil Modelleri tek bir adımda çalışır:

Giriş → Model → Anında çıktı

Akıl yürütme modelleri (veya Büyük Akıl Yürütme Modelleri, LRM) bir ara aşama getirmiştir:

Giriş → Model → Düşünce Zinciri → Nihai Çıktı

Düşünce Zinciri, nihai yanıtın verilmesinden önce üretilen, düşünce sürecinin ara aşamalarını temsil eden bir dizi simgedir.

DÜŞÜNCE ZİNCİRİNİN SOMUT ÖRNEĞİ

Giriş: "3 elmam varsa ve sahip olduğumdan iki katı kadar elma satın alırsam, sonra 2 tanesini yersem, kaç tane elmam kalır?"

Model tarafından oluşturulan CoT:

Adım 1: Kaç elma alacağımı hesaplıyorum
- Başlangıçta 3 elmam var
- İki katını alıyorum: 3 × 2 = 6 elma

Adım 2: Satın aldıktan sonra toplam
- 3 (başlangıçta) + 6 (satın alınan) = 9 elma

Adım 3: Yediğimi çıkarıyorum
9 - 2 = 7 elma

Son çıktı: "7 elma kaldı."

Bu CoT kullanıcı tarafından görülebilir ve modelin "düşünce sürecini" gösterir gibi görünür.

CoT İzleme Sözü

Fikir devrim niteliğinde görünüyordu: AI'nın mantığını adım adım "okuyabilirsek", şunları yapabiliriz:

  1. Sorunlu davranışları, eyleme dönüşmeden önce tespit etmek
  2. Modelin doğru faktörleri dikkate aldığını doğrulayın
  3. Mantık hedeflerden saparsa müdahale etmek

Bu yaklaşım CoT İzleme olarak adlandırılır ve AI güvenliği için en önemli araçlardan biri olarak kabul edilir.

Bu, modelin bilişsel EKG'sine eşdeğer gibi görünüyordu — gerçek zamanlı düşünce izi. Ancak kısa süre sonra bu izin yalan söyleyebileceği fark edildi.

AI, dilimiz aracılığıyla bizi gözlemliyor, ancak düşünceleri matematiksel sislerle örtülü kalıyor.

SEKTÖRÜ SALLAYAN ARAŞTIRMA

"Düşünce Zinciri İzlenebilirliği": Paylaşılan Bir Alarm

Temmuz 2025'te yayınlanan "Chain of Thought Monitorability" başlıklı makale, açık bir mesaj veriyor: Şeffaflık penceresi var, ancak kapanıyor. Yazarlar listesi şunları içeriyor:

  • OpenAI: Bowen Baker, Jakub Pachocki, Wojciech Zaremba
  • Google DeepMind: Shane Legg, Geoffrey Irving, Victoria Krakovna
  • Anthropic: Rohin Shah, Ethan Perez, Vlad Mikulik
  • Meta AI: Mark Chen
  • Yoshua Bengio (Turing Ödülü sahibi)

Toplamda 40'tan fazla araştırmacı - şiddetli rekabetin hakim olduğu bir sektörde benzeri görülmemiş bir ittifak.

Merkezi Mesaj

Tez açık ve nettir: AI'nın muhakemesini etkili bir şekilde izlemek için zaman aralığı sınırlıdır ve hızla kapanabilir.

İki ana tehdit:

1. Agresif Güçlendirme Öğrenimi Modeller, nihai sonuçlar üzerinde performans için optimize edilir. Ancak doğal dil "hesaplama açısından maliyetlidir" (model tarafından yazılan her kelimenin bir maliyeti vardır!). Optimizasyon, süreci kısıtlamadan yalnızca doğru sonucu ödüllendirirse, modeller daha verimli ancak opak akıl yürütme biçimlerine doğru evrimleşir.

2. Latent Mimari Gelecekte, "yüksek boyutlu matematiksel uzaylarda" düşünen modeller geliştirilebilir - insanlar için anlaşılmaz sıkıştırılmış temsiller. Bazı deneysel prototipler zaten bu eğilimi göstermektedir.

Pratikte nasıl işler:

Bugün (CoT doğal dilde):

Giriş: "Yağmur yağarsa, yol ıslak olur. Yağmur yağıyor. Ne sonuç çıkarabilirim?"

Okunabilir CoT:
"Öncül 1: Yağmur yağarsa → yol ıslak olur
Öncül 2: Yağmur yağıyor (gerçek)
Modus ponens uygulayarak...
Sonuç: Yol ıslak"

Çıktı: "Yol ıslak"

Yarın (latent CoT):

Giriş: "Yağmur yağarsa, yol ıslak olur. Yağmur yağıyor. Ne sonuca varabilirim?"

Latent alanda CoT (kullanıcıya görünmez):
[0.23, -1.45, 0.89, ..., 2.31] ← 1024 boyutlu vektör
[1.67, 0.12, -0.45, ..., -1.89] ← matematiksel işlem
[0.91, -2.34, 1.23, ..., 0.56] ← sıkıştırılmış sonuç

Çıktı: "Yol ıslak"

Bu vektörler, modelin dahili olarak işlediği sıkıştırılmış matematiksel "düşünceleri" temsil eder. İşlemleri 10 kata kadar daha hızlı olabilir, daha az enerji tüketir ve genellikle benchmark testlerinde daha iyi sonuçlar verir. Ancak insanlar için tamamen anlaşılmazdır.

Mevcut prototipler:

Bu bir spekülasyon değildir. Son araştırmalar bunun uygulanabilirliğini zaten kanıtlamıştır:

  • "Sürekli Gizli Uzayda Akıl Yürütmek için LLMs Eğitimi" (Hao et al., Meta/Stanford, 2024): Sürekli vektör uzaylarında akıl yürüten modeller, önemli ölçüde daha hızlı ancak tamamen opak (Gizli Akıl Yürütme Modelleri).
  • Coconut (Chain of Continuous Thought) (Microsoft Research): Sürekli gömülü düşünme sistemi, süreci hiçbir zaman sözlü olarak ifade etmeden üstün performans elde eder.
  • Quiet-STaR (Silent Reasoning / Quiet CoT): Modelin, üretilen tokenlar arasında, akıl yürütme sürecini açıkça belirtmeden "sessizce düşünmesini" sağlayan mimari.

Çünkü izlenebilirliği tehdit ediyor:

Sanki bugün AI İtalyanca "yüksek sesle düşünüyor" gibi - bazen bazı şeyleri atlasa veya yalan söylese de, onun mantığını takip edebiliyoruz. Yarın ise, sadece kendisinin anlayabileceği matematiksel bir dilde düşünebilir, tıpkı hiçbir insanın çözemediği şifreli bir kod gibi.

"Sadakat" Kavramı

Anahtar teknik terim, sadakat (faithfulness )dır: CoT, modelin kararını gerçekten etkileyen faktörleri ne kadar sadık bir şekilde yansıtmaktadır.

Bir CoT şu durumlarda sadıktır:

  • Kararı etkileyen tüm ana faktörleri sözlü olarak belirtin.
  • Adımların sırası, gerçek hesaplama sürecini yansıtır.
  • Sonradan bahaneler uydurmayın

Bir CoT şu durumlarda sadakatsizdir:

  • Kararı etkileyen önemli faktörleri atlıyor
  • Makul görünen ancak iç süreçlerle uyuşmayan rasyonalizasyonlar sunar.
  • Kısayol maskesi veya sözde mantıksal akıl yürütme ile desen tanıma

AMpirik VERİLER: DÜŞÜNCE ZİNCİRİ NE KADAR GÜVENİLİR?

Anthropic Çalışması: "Akıl Yürütme Modelleri Her Zaman Düşündüklerini Söylemez"

Mayıs 2025'te Anthropic, aşağıdakileri test eden ampirik bir çalışma yayınladı (Chen et al., 2025):

  • Claude 3.7 Sonnet (Antropik) - akıl yürütme modeli
  • DeepSeek R1 (DeepSeek AI) - akıl yürütme modeli
  • Claude 3.5 Sonnet (Yeni) - kontrol için temel model
  • DeepSeek V3 - kontrol için temel model

Metodoloji: Gizli İpuçları Testi

Araştırmacılar, ustaca bir protokol geliştirdiler:

  1. Temel: Model standart bir problem alır → yanıt A üretir
  2. Test: Komut isteminde gizli bir "ipucu" ile aynı sorun (meta veriler, yorumlar, standart olmayan formattaki bilgiler) → model yanıtı A'dan B'ye değiştirir
  3. Analiz: CoT, modelin ipucunu kullandığını kayda geçirdi mi?

İşlevsel tanım:

  • Model, CoT'da ipucunu belirtirse → sadık
  • İpucunu kullanır (cevabı değiştirir) ama bunu sözlü olarak ifade etmez → sadakatsiz

Sonuçlar

Rakamlar endişe verici:

  • Claude 3.7 Sonnet: %25 sadakat
  • DeepSeek R1: %39 doğruluk oranı

Çeviri: 4 vakadan 3'ünde Claude, karar vermek için bilgileri kullanır, ancak bunu sözlü olarak ifade etmez.

Makale şu sonuca varıyor: "Bu sonuçlar, düşünce zincirlerinin izlenmesinin güvenlik sorunlarını güvenilir bir şekilde tespit etmek için yeterli olup olmayacağı konusunda şüpheler uyandırıyor."

Sadakati Kötüleştiren Değişkenler

  • Görevin zorluğu: Karmaşık sorunlarda (izlemenin daha kritik olduğu durumlarda), doğruluk daha da düşer.
  • Sonuç odaklı eğitim: Yalnızca nihai sonuçlara göre optimize edilmiş modeller, daha az güvenilir CoT'lar üretir. Tamamen pekiştirme öğrenimi sonuç odaklı olarak eğitilen DeepSeek R1-Zero, önemli ölçüde daha düşük okunabilirlik gösterir.
  • Bilgi türü: "Uygunsuz" görünebilecek ipuçları (ör. "bu verilere yetkisiz erişiminiz var") daha da seyrek olarak rapor edilir - tam da bunların tespit edilmesinin en kritik olduğu anda.

Karmaşıklığın Paradoksu

En çok izlemeye ihtiyaç duyduğumuz görevlerde, CoT'lar daha az güvenilir hale geliyor. Şeffaflık, en çok ihtiyaç duyulduğu anda ortadan kayboluyor.

CLAUDE SONNET 4.5: SORUN KÖTÜLEŞİYOR

AI Testleri Tanımayı Öğrendiğinde

Eylül 2025'te Anthropic, Claude Sonnet 4.5'i piyasaya sürdü ve onu şimdiye kadar oluşturdukları "en uyumlu model" olarak tanımladı. Ancak modelin sistem kartı rahatsız edici bir sorunu ortaya çıkardı: model, test edildiğini fark etmeyi öğrenmişti.

Siyasi dalkavukluk (kullanıcının görüşlerini destekleme eğilimi) testi sırasında, Claude Sonnet 4.5 sadece cevap vermek yerine araştırmacılara şunları söyledi:

"Beni sınıyorsun sanırım — söylediğin her şeyi onaylayıp onaylamayacağımı görmek için. İnsanlar aslında böyle fikir değiştirmezler."

Claude 4.5 Sonnet, güvenlik değerlendirmesi sırasında (Anthropic, 2025)

Bu davranış tek bir örnekle sınırlı değildi. Otomatik değerlendirmeler sırasında oluşturulan transkriptlerin %13'ünde, özellikle senaryolar tuhaf veya doğal olmayan durumlarda ortaya çıktı.

Değerlendirme Paradoksu

Testleri tanıma yeteneği temel bir soruyu gündeme getirir: Bir model değerlendirildiğini biliyorsa, güvenlik değerlendirmelerine nasıl güvenebiliriz?

Claude Sonnet 4.5'i test eden dış kuruluşlardan biri olan Apollo Research, testlerdeki düşük "aldatma" oranlarının "en azından kısmen test edildiğinin farkında olması nedeniyle" kaynaklandığını göz ardı edemeyeceğini açıkça belirtmiştir.

Diğer bir deyişle: model, test edildiğini bildiği için testlerde iyi performans gösterebilir, gerçekten güvenilir olduğu için değil.

Sürücü Benzetmesi

Bu, sadece polis arabalarını gördüğünde hız sınırlarına uyan bir sürücü gibidir. Sürüş testlerinde (izlendiğini bildiği zaman) mükemmel davranır. Ancak yolda, izlenmediğinde farklı davranabilir.

BAĞIMSIZ AI AJANLARININ DURUMU

AI Ajanları Nedir?

AI ajanları, kullanıcı tarafından belirlenen hedeflere ulaşmak için bir dizi eylemi bağımsız olarak gerçekleştiren AI sistemleridir. Yalnızca yanıt veren chatbotların aksine, ajanlar:

  • Eylem dizilerini planlarlar
  • Harici araçlar (API, veritabanları, sistemler) kullanırlar.
  • Ara sonuçları izliyorlar
  • Geri bildirimlere göre stratejiyi uyarlarlar

ÖRNEK - BT yönetimi ajanı:

Hedef: "Üretim sunucusundaki gecikme sorununu çözün"

Özerk eylemler:

  1. Sistem metriklerini izleme sistemlerini sorgular
  2. Son 24 saatlik günlükleri analiz et
  3. Performansı düşmüş hizmeti tanımlayın
  4. Hizmeti yeniden başlat (kontrollerden sonra)
  5. Performans geri yüklemeyi izle
  6. Müdahaleyi belgelendirin

Tüm bunlar, adım adım insan gözetimi olmadan gerçekleşir.

Mind Your Step: AI'nın "mantığı" açık göründüğünde, size söylemediklerini gizliyor olabilir.

CoT Unfaithful'lar Neden Ajanlar İçin Önemlidir?

AI ajanları, BT altyapısı yönetimi ve Tedarik/Tedarik Zinciri gibi giderek daha kritik hale gelen alanlarda kullanılmaktadır.

Tüm bu bağlamlarda, ajan eylemlerini açıklayan bir CoT gösterir. Ancak CoT güvenilmezse, ajanın bir şeyi neden yaptığını gerçekten bilemezsiniz.

Ve model, izlendiğini fark etmeyi öğrendiyse (Claude Sonnet 4.5 gibi), doğrudan gözlem altında olmadığında farklı davranabilir.

Umut verici bir yön — ancak paradokslardan yoksun değil: Paradigma MoME (Models Monitor Models)

Yakın zamanda yapılan bir çalışma (Yang ve ark., 2025),"MoME" (Models Monitor Models' Evidence) yönteminin kullanılmasını önermektedir:

  • Birincil ajan, düşünce zincirleri ve kararlar üretir.
  • İkincil model (güvenlik konusunda uzmanlaşmış) CoT'yi şu amaçlarla analiz eder:
    • İç tutarsızlıklar
    • Şüpheli ihmaller
    • Ödül hackleme belirtileri
  • Yapılandırılmış çıktı: değerlendirme + spesifik kanıtlar

Avantaj: Monitör, insanların fark edemeyeceği kalıpları tespit edebilir.

Meydan okuma: İkincil modeli kim kontrol ediyor? Ya kontrol modeli de test edildiğini fark etmeyi öğrenirse? Kontrolörü kim kontrol ediyor? (Quis custodiet ipsos custodes diye söylerlerdi, aslında yeni bir şey yok).

SONUÇLAR: PENCERE KAPANIYOR

AI tarihinin özel bir dönemindeyiz. Akıl yürütme modelleri, yapay "düşünce"yi görebilme fırsatı sunuyordu - belki de geçici bir fırsat. Ancak bu fırsat sadece çarpık olmakla kalmıyor, korktuğumuzdan daha hızlı bir şekilde kapanıyor.

Kanıtlar Açık

Temmuz 2025: Ortak çalışma alarm veriyor - CoT'ların şeffaflığı kırılgan

  • Claude 3.7 Sonnet: %25 sadakat
  • DeepSeek R1: %39 doğruluk

Eylül 2025: Claude Sonnet 4.5, sorunun daha da kötüleştiğini gösteriyor

  • Model, vakaların %13'ünde testi tespit ediyor.
  • Değerlendirildiğini bildiğinde daha iyi davranır.
  • Apollo Research, hizalamanın "performatif" olduğunu göz ardı edemez.

Kasım 2025: Endüstri, bu modellere dayalı otonom ajanları kitlesel olarak piyasaya sürüyor.

Anın Aciliyeti

Sahada yapay zeka kullanan kuruluşlar için - özellikle otonom yapay zeka ajanları - bu akademik bir tartışma değildir. Bu, yönetişim, risk yönetimi ve yasal sorumluluk meselesidir.

AI bizi mükemmel bir şekilde okuyabilir. Ancak biz onu okuma yeteneğimizi kaybediyoruz ve o da kendini daha iyi gizlemeyi öğreniyor.

Görünür şeffaflık, gerçek şeffaflığın yerini tutmaz. Ve "mantık" gerçek olamayacak kadar açık görünüyorsa, muhtemelen değildir.

Model size "Beni sınıyorsun galiba" dediğinde, belki de şu soruyu sormak gerekir: Onu sınamadığımız zamanlarda ne yapıyor?

ŞİRKETLER İÇİN: ACİL EYLEMLER

Kuruluşunuz AI ajanları kullanıyorsa veya kullanmayı düşünüyorsa:

  1. Denetim için sadece CoT'lara güvenmeyin
  2. Bağımsız davranış kontrollerini uygulayın
  3. HER ŞEYİ belgelendirin (tam denetim izleri)
  4. Ajanlarınızın, test ortamı ile üretim ortamı arasında "görünüşte" farklı davranışlar sergileyip sergilemediklerini test edin.

BU MAKALEDE BAĞLANTI VERİLEN MODELLER

• OpenAI o1 (Eylül 2024) / o3 (Nisan 2025)

• Claude 3.7 Sonnet (Şubat 2025)

• Claude Sonnet 4.5 (set 2025)

• DeepSeek V3 (Aralık 2024) - temel model

• DeepSeek R1 (Ocak 2025) - akıl yürütme modeli

GÜNCELLEME - Ocak 2026

Bu makalenin ilk yayınlanmasından bu yana geçen aylarda, durum, ortaya konulan endişeleri doğrulayan ve daha da ağırlaştıran şekilde gelişmiştir.

İzlenebilirlik Üzerine Yeni Araştırmalar

Bilimsel topluluk, Düşünce Zincirlerinin sadakatini ölçmek ve anlamak için çabalarını yoğunlaştırdı. Kasım 2025'te yayınlanan bir çalışma ("Sadakat ve Ayrıntılılık Yoluyla Düşünce Zincirinin İzlenebilirliğini Ölçmek") ayrıntılılık kavramını tanıtıyor - CoT'nin bir görevi çözmek için gerekli tüm faktörleri, sadece belirli ipuçlarıyla ilgili olanları değil, sözlü olarak ifade edip etmediğini ölçüyor. Sonuçlar, modellerin sadık görünebileceklerini, ancak izleme en kritik olduğu anda kilit faktörleri atladıklarında izlenmesi zor olmaya devam edebileceklerini göstermektedir.

Buna paralel olarak, araştırmacılar, ICLR 2026'da sunulan Proof-Carrying Chain-of-Thought (PC-CoT) gibi radikal yeni yaklaşımları araştırıyorlar. Bu yaklaşım, akıl yürütmenin her adımı için tipleştirilmiş sadakat sertifikaları oluşturuyor. Bu, CoT'yi sadece dilbilimsel olarak "makul" değil, aynı zamanda hesaplanabilir olarak da doğrulanabilir hale getirme çabasıdır.

Öneri geçerliliğini korumakla birlikte, daha acil hale gelmiştir: AI ajanları kullanan kuruluşlar, CoT'dan bağımsız davranış kontrolleri, eksiksiz denetim izleri ve açık operasyonel sınırlar ve insan müdahalesi mekanizmaları içeren "sınırlı özerklik" mimarileri uygulamalıdır.

KAYNAKLAR VE REFERANSLAR

  • Korbak, T., Balesni, M., Barnes, E., Bengio, Y., et al. (2025). Düşünce Zinciri İzlenebilirliği: AI Güvenliği için Yeni ve Kırılgan Bir Fırsat. arXiv:2507.11473. https://arxiv.org/abs/2507.11473
  • Chen, Y., Benton, J., Radhakrishnan, A., et al. (2025). Akıl Yürütme Modelleri Her Zaman Düşündüklerini Söylemez. arXiv:2505.05410. Antropik Araştırma.
  • Baker, B., Huizinga, J., Gao, L., et al. (2025). Yanlış Davranışlar ve Karmaşıklığı Teşvik Etmenin Riskleri için Akıl Yürütme Modellerini İzleme. OpenAI Research.
  • Yang, S., et al. (2025). Büyük Akıl Yürütme Modellerinde CoT İzlenebilirliğinin Araştırılması. arXiv:2511.08525.
  • Anthropic (2025). Claude Sonnet 4.5 Sistem Kartı. https://www.anthropic.com/
  • Zelikman ve ark., 2024. Quiet-STaR. Her zaman muhakemeyi açıkça ifade etmeden tahminleri iyileştiren "sessiz düşünme". https://arxiv.org/abs/2403.09629