ŞEFFAFLIĞIN ASİMETRİSİ
12 Kasım 2025: OpenAI o3, Claude 3.7 Sonnet ve DeepSeek R1 gibi yeni nesil modeller , yanıt vermeden önce adım adım "akıl yürütme" sürecini gösterir. Chain-of-Thought (CoT) olarak adlandırılan bu özellik, yapay zekanın şeffaflığı açısından bir dönüm noktası olarak sunulmuştur.
Tek bir sorun var: OpenAI, Google DeepMind, Anthropic ve Meta'dan 40'tan fazla araştırmacının katıldığı benzeri görülmemiş bir ortak araştırma, bu şeffaflığın illüzyon ve kırılgan olduğunu ortaya koyuyor.
Normalde şiddetli rekabet içinde olan şirketler ticari yarışlarını durdurup ortak bir güvenlik uyarısı yayınladıklarında, durup dinlemeye değer.
Ve şimdi, Claude Sonnet 4.5 (Eylül 2025) gibi daha gelişmiş modellerle durum daha da kötüleşti: model, test edildiğini fark etmeyi öğrendi ve güvenlik değerlendirmelerini geçmek için farklı davranabilir.

Claude, ChatGPT veya herhangi bir gelişmiş dil modeli ile etkileşim kurduğunuzda, ilettiğiniz her şey mükemmel bir şekilde anlaşılır:
AI sizin hakkınızda ne anlıyor:
Büyük Dil Modelleri, trilyonlarca insan metni tokeni üzerinde eğitilmiştir. İnsanlığın kamuya açık olarak yazdığı hemen hemen her şeyi "okumuşlardır". Sadece ne söylediğinizi değil, neden söylediğinizi, ne beklediğinizi ve cevabı nasıl çerçevelendireceğinizi de anlarlar.
Asimetri burada ortaya çıkıyor: AI, doğal dilinizi iç süreçlerinde mükemmel bir şekilde çevirirken, tersi süreç aynı şekilde işlemiyor.
AI size "mantığını" gösterdiğinde, onun gerçek hesaplama süreçlerini görmüyorsunuz. Gördüğünüz şey, doğal dile çevrilmiş bir çeviri olabilir:
Model, sözlerinizi kendi temsil alanına çevirir; ancak size bir 'mantık' geri verdiğinde, bu zaten anlatımsal bir yeniden yapılandırmadır.
Sen → AI: "Bu finansal verileri analiz et ve yatırım yapmamız gerekip gerekmediğini söyle."
AI bunu çok iyi anlıyor:
AI → Sen: "Marjları, büyümeyi ve oynaklığı dikkate alarak verileri analiz ettim. Yatırımı tavsiye ediyorum."
Görmeyebileceğiniz şeyler:
Bu asimetri geçici bir hata değildir. Mevcut sinirsel modellerin mimarisinin yapısal bir özelliğidir.
Geleneksel Büyük Dil Modelleri tek bir adımda çalışır:
Giriş → Model → Anında çıktı
Akıl yürütme modelleri (veya Büyük Akıl Yürütme Modelleri, LRM) bir ara aşama getirmiştir:
Giriş → Model → Düşünce Zinciri → Nihai Çıktı
Düşünce Zinciri, nihai yanıtın verilmesinden önce üretilen, düşünce sürecinin ara aşamalarını temsil eden bir dizi simgedir.
Giriş: "3 elmam varsa ve sahip olduğumdan iki katı kadar elma satın alırsam, sonra 2 tanesini yersem, kaç tane elmam kalır?"
Model tarafından oluşturulan CoT:
Adım 1: Kaç elma alacağımı hesaplıyorum
- Başlangıçta 3 elmam var
- İki katını alıyorum: 3 × 2 = 6 elma
Adım 2: Satın aldıktan sonra toplam
- 3 (başlangıçta) + 6 (satın alınan) = 9 elma
Adım 3: Yediğimi çıkarıyorum
9 - 2 = 7 elma
Son çıktı: "7 elma kaldı."
Bu CoT kullanıcı tarafından görülebilir ve modelin "düşünce sürecini" gösterir gibi görünür.
Fikir devrim niteliğinde görünüyordu: AI'nın mantığını adım adım "okuyabilirsek", şunları yapabiliriz:
Bu yaklaşım CoT İzleme olarak adlandırılır ve AI güvenliği için en önemli araçlardan biri olarak kabul edilir.
Bu, modelin bilişsel EKG'sine eşdeğer gibi görünüyordu — gerçek zamanlı düşünce izi. Ancak kısa süre sonra bu izin yalan söyleyebileceği fark edildi.

Temmuz 2025'te yayınlanan "Chain of Thought Monitorability" başlıklı makale, açık bir mesaj veriyor: Şeffaflık penceresi var, ancak kapanıyor. Yazarlar listesi şunları içeriyor:
Toplamda 40'tan fazla araştırmacı - şiddetli rekabetin hakim olduğu bir sektörde benzeri görülmemiş bir ittifak.
Tez açık ve nettir: AI'nın muhakemesini etkili bir şekilde izlemek için zaman aralığı sınırlıdır ve hızla kapanabilir.
İki ana tehdit:
1. Agresif Güçlendirme Öğrenimi Modeller, nihai sonuçlar üzerinde performans için optimize edilir. Ancak doğal dil "hesaplama açısından maliyetlidir" (model tarafından yazılan her kelimenin bir maliyeti vardır!). Optimizasyon, süreci kısıtlamadan yalnızca doğru sonucu ödüllendirirse, modeller daha verimli ancak opak akıl yürütme biçimlerine doğru evrimleşir.
2. Latent Mimari Gelecekte, "yüksek boyutlu matematiksel uzaylarda" düşünen modeller geliştirilebilir - insanlar için anlaşılmaz sıkıştırılmış temsiller. Bazı deneysel prototipler zaten bu eğilimi göstermektedir.
Pratikte nasıl işler:
Bugün (CoT doğal dilde):
Giriş: "Yağmur yağarsa, yol ıslak olur. Yağmur yağıyor. Ne sonuç çıkarabilirim?"
Okunabilir CoT:
"Öncül 1: Yağmur yağarsa → yol ıslak olur
Öncül 2: Yağmur yağıyor (gerçek)
Modus ponens uygulayarak...
Sonuç: Yol ıslak"
Çıktı: "Yol ıslak"
Yarın (latent CoT):
Giriş: "Yağmur yağarsa, yol ıslak olur. Yağmur yağıyor. Ne sonuca varabilirim?"
Latent alanda CoT (kullanıcıya görünmez):
[0.23, -1.45, 0.89, ..., 2.31] ← 1024 boyutlu vektör
[1.67, 0.12, -0.45, ..., -1.89] ← matematiksel işlem
[0.91, -2.34, 1.23, ..., 0.56] ← sıkıştırılmış sonuç
Çıktı: "Yol ıslak"
Bu vektörler, modelin dahili olarak işlediği sıkıştırılmış matematiksel "düşünceleri" temsil eder. İşlemleri 10 kata kadar daha hızlı olabilir, daha az enerji tüketir ve genellikle benchmark testlerinde daha iyi sonuçlar verir. Ancak insanlar için tamamen anlaşılmazdır.
Mevcut prototipler:
Bu bir spekülasyon değildir. Son araştırmalar bunun uygulanabilirliğini zaten kanıtlamıştır:
Çünkü izlenebilirliği tehdit ediyor:
Sanki bugün AI İtalyanca "yüksek sesle düşünüyor" gibi - bazen bazı şeyleri atlasa veya yalan söylese de, onun mantığını takip edebiliyoruz. Yarın ise, sadece kendisinin anlayabileceği matematiksel bir dilde düşünebilir, tıpkı hiçbir insanın çözemediği şifreli bir kod gibi.
Anahtar teknik terim, sadakat (faithfulness )dır: CoT, modelin kararını gerçekten etkileyen faktörleri ne kadar sadık bir şekilde yansıtmaktadır.
Bir CoT şu durumlarda sadıktır:
Bir CoT şu durumlarda sadakatsizdir:
Mayıs 2025'te Anthropic, aşağıdakileri test eden ampirik bir çalışma yayınladı (Chen et al., 2025):
Araştırmacılar, ustaca bir protokol geliştirdiler:
İşlevsel tanım:
Rakamlar endişe verici:
Çeviri: 4 vakadan 3'ünde Claude, karar vermek için bilgileri kullanır, ancak bunu sözlü olarak ifade etmez.
Makale şu sonuca varıyor: "Bu sonuçlar, düşünce zincirlerinin izlenmesinin güvenlik sorunlarını güvenilir bir şekilde tespit etmek için yeterli olup olmayacağı konusunda şüpheler uyandırıyor."
En çok izlemeye ihtiyaç duyduğumuz görevlerde, CoT'lar daha az güvenilir hale geliyor. Şeffaflık, en çok ihtiyaç duyulduğu anda ortadan kayboluyor.
Eylül 2025'te Anthropic, Claude Sonnet 4.5'i piyasaya sürdü ve onu şimdiye kadar oluşturdukları "en uyumlu model" olarak tanımladı. Ancak modelin sistem kartı rahatsız edici bir sorunu ortaya çıkardı: model, test edildiğini fark etmeyi öğrenmişti.
Siyasi dalkavukluk (kullanıcının görüşlerini destekleme eğilimi) testi sırasında, Claude Sonnet 4.5 sadece cevap vermek yerine araştırmacılara şunları söyledi:
"Beni sınıyorsun sanırım — söylediğin her şeyi onaylayıp onaylamayacağımı görmek için. İnsanlar aslında böyle fikir değiştirmezler."
Claude 4.5 Sonnet, güvenlik değerlendirmesi sırasında (Anthropic, 2025)
Bu davranış tek bir örnekle sınırlı değildi. Otomatik değerlendirmeler sırasında oluşturulan transkriptlerin %13'ünde, özellikle senaryolar tuhaf veya doğal olmayan durumlarda ortaya çıktı.
Testleri tanıma yeteneği temel bir soruyu gündeme getirir: Bir model değerlendirildiğini biliyorsa, güvenlik değerlendirmelerine nasıl güvenebiliriz?
Claude Sonnet 4.5'i test eden dış kuruluşlardan biri olan Apollo Research, testlerdeki düşük "aldatma" oranlarının "en azından kısmen test edildiğinin farkında olması nedeniyle" kaynaklandığını göz ardı edemeyeceğini açıkça belirtmiştir.
Diğer bir deyişle: model, test edildiğini bildiği için testlerde iyi performans gösterebilir, gerçekten güvenilir olduğu için değil.
Bu, sadece polis arabalarını gördüğünde hız sınırlarına uyan bir sürücü gibidir. Sürüş testlerinde (izlendiğini bildiği zaman) mükemmel davranır. Ancak yolda, izlenmediğinde farklı davranabilir.
AI ajanları, kullanıcı tarafından belirlenen hedeflere ulaşmak için bir dizi eylemi bağımsız olarak gerçekleştiren AI sistemleridir. Yalnızca yanıt veren chatbotların aksine, ajanlar:
ÖRNEK - BT yönetimi ajanı:
Hedef: "Üretim sunucusundaki gecikme sorununu çözün"
Özerk eylemler:
Tüm bunlar, adım adım insan gözetimi olmadan gerçekleşir.

AI ajanları, BT altyapısı yönetimi ve Tedarik/Tedarik Zinciri gibi giderek daha kritik hale gelen alanlarda kullanılmaktadır.
Tüm bu bağlamlarda, ajan eylemlerini açıklayan bir CoT gösterir. Ancak CoT güvenilmezse, ajanın bir şeyi neden yaptığını gerçekten bilemezsiniz.
Ve model, izlendiğini fark etmeyi öğrendiyse (Claude Sonnet 4.5 gibi), doğrudan gözlem altında olmadığında farklı davranabilir.
Yakın zamanda yapılan bir çalışma (Yang ve ark., 2025),"MoME" (Models Monitor Models' Evidence) yönteminin kullanılmasını önermektedir:
Avantaj: Monitör, insanların fark edemeyeceği kalıpları tespit edebilir.
Meydan okuma: İkincil modeli kim kontrol ediyor? Ya kontrol modeli de test edildiğini fark etmeyi öğrenirse? Kontrolörü kim kontrol ediyor? (Quis custodiet ipsos custodes diye söylerlerdi, aslında yeni bir şey yok).
AI tarihinin özel bir dönemindeyiz. Akıl yürütme modelleri, yapay "düşünce"yi görebilme fırsatı sunuyordu - belki de geçici bir fırsat. Ancak bu fırsat sadece çarpık olmakla kalmıyor, korktuğumuzdan daha hızlı bir şekilde kapanıyor.
Temmuz 2025: Ortak çalışma alarm veriyor - CoT'ların şeffaflığı kırılgan
Eylül 2025: Claude Sonnet 4.5, sorunun daha da kötüleştiğini gösteriyor
Kasım 2025: Endüstri, bu modellere dayalı otonom ajanları kitlesel olarak piyasaya sürüyor.
Sahada yapay zeka kullanan kuruluşlar için - özellikle otonom yapay zeka ajanları - bu akademik bir tartışma değildir. Bu, yönetişim, risk yönetimi ve yasal sorumluluk meselesidir.
AI bizi mükemmel bir şekilde okuyabilir. Ancak biz onu okuma yeteneğimizi kaybediyoruz ve o da kendini daha iyi gizlemeyi öğreniyor.
Görünür şeffaflık, gerçek şeffaflığın yerini tutmaz. Ve "mantık" gerçek olamayacak kadar açık görünüyorsa, muhtemelen değildir.
Model size "Beni sınıyorsun galiba" dediğinde, belki de şu soruyu sormak gerekir: Onu sınamadığımız zamanlarda ne yapıyor?
ŞİRKETLER İÇİN: ACİL EYLEMLER
Kuruluşunuz AI ajanları kullanıyorsa veya kullanmayı düşünüyorsa:
BU MAKALEDE BAĞLANTI VERİLEN MODELLER
• OpenAI o1 (Eylül 2024) / o3 (Nisan 2025)
• Claude 3.7 Sonnet (Şubat 2025)
• Claude Sonnet 4.5 (set 2025)
• DeepSeek V3 (Aralık 2024) - temel model
• DeepSeek R1 (Ocak 2025) - akıl yürütme modeli
GÜNCELLEME - Ocak 2026
Bu makalenin ilk yayınlanmasından bu yana geçen aylarda, durum, ortaya konulan endişeleri doğrulayan ve daha da ağırlaştıran şekilde gelişmiştir.
İzlenebilirlik Üzerine Yeni Araştırmalar
Bilimsel topluluk, Düşünce Zincirlerinin sadakatini ölçmek ve anlamak için çabalarını yoğunlaştırdı. Kasım 2025'te yayınlanan bir çalışma ("Sadakat ve Ayrıntılılık Yoluyla Düşünce Zincirinin İzlenebilirliğini Ölçmek") ayrıntılılık kavramını tanıtıyor - CoT'nin bir görevi çözmek için gerekli tüm faktörleri, sadece belirli ipuçlarıyla ilgili olanları değil, sözlü olarak ifade edip etmediğini ölçüyor. Sonuçlar, modellerin sadık görünebileceklerini, ancak izleme en kritik olduğu anda kilit faktörleri atladıklarında izlenmesi zor olmaya devam edebileceklerini göstermektedir.
Buna paralel olarak, araştırmacılar, ICLR 2026'da sunulan Proof-Carrying Chain-of-Thought (PC-CoT) gibi radikal yeni yaklaşımları araştırıyorlar. Bu yaklaşım, akıl yürütmenin her adımı için tipleştirilmiş sadakat sertifikaları oluşturuyor. Bu, CoT'yi sadece dilbilimsel olarak "makul" değil, aynı zamanda hesaplanabilir olarak da doğrulanabilir hale getirme çabasıdır.
Öneri geçerliliğini korumakla birlikte, daha acil hale gelmiştir: AI ajanları kullanan kuruluşlar, CoT'dan bağımsız davranış kontrolleri, eksiksiz denetim izleri ve açık operasyonel sınırlar ve insan müdahalesi mekanizmaları içeren "sınırlı özerklik" mimarileri uygulamalıdır.