Newsletter

Matematik neden zordur (bir yapay zeka olsanız bile)

Dil modelleri bizim pi sayısını ezberlediğimiz gibi sonuçları nasıl çarparak ezberleyeceklerini bilmezler, ancak bu onları matematikçi yapmaz. Sorun yapısaldır: algoritmik anlayışla değil, istatistiksel benzerlikle öğrenirler. O1 gibi yeni 'akıl yürütme modelleri' bile önemsiz görevlerde başarısız oluyor: saniyeler süren bir işlemden sonra 'çilek' kelimesindeki 'r'yi doğru sayıyor, ancak her cümlenin ikinci harfinin bir kelime oluşturduğu bir paragraf yazması gerektiğinde başarısız oluyor. Aylık 200 dolarlık premium sürümün bir çocuğun anında yapabildiği işi çözmesi dört dakika sürüyor. DeepSeek ve Mistral 2025'te hala harfleri yanlış sayıyor. Yeni ortaya çıkan çözüm? Hibrit yaklaşım - en akıllı modeller, hesaplamayı kendileri yapmak yerine ne zaman gerçek bir hesap makinesi çağıracaklarını bulmuşlardır. Paradigma değişimi: YZ'nin her şeyi nasıl yapacağını bilmesi gerekmiyor, doğru araçları düzenlemesi gerekiyor. Son paradoks: GPT-4 size limitler teorisini zekice açıklayabilir ama bir cep hesap makinesinin her zaman doğru çözdüğü çarpma işlemlerini yanlış yapar. Matematik eğitimi için mükemmeldirler - sonsuz sabırla açıklarlar, örnekleri uyarlarlar, karmaşık muhakemeleri çözerler. Kesin hesaplamalar için mi? Hesap makinesine güvenin, yapay zekaya değil.

Birçok kişi LLM Ayrıca matematiksel işlemler yapmak için. Bu yaklaşım işe yaramıyor .

Sorun aslında basit: büyük dil modelleri (LLM) nasıl çarpma yapılacağını gerçekten bilmiyor. Bazen pi sayısının değerini ezbere bildiğim gibi sonucu doğru çıkarabilirler. Ancak bu ne benim bir matematikçi olduğum anlamına gelir ne de LLM'lerin gerçekten matematik yapmayı bildiği anlamına gelir.

Pratik örnek

Örnek: 49858 *59949 = 298896167242 Bu sonuç her zaman aynıdır, ortası yoktur. Ya doğrudur ya da yanlıştır.

Yoğun matematik eğitimine rağmen, en iyi modeller işlemlerin yalnızca bir kısmını doğru çözmeyi başarır. Öte yandan basit bir cep hesap makinesi, sonuçların %100'ünü her zaman doğru alır. Sayılar büyüdükçe, LLM'lerin performansı da kötüleşir.

Bu sorunu çözmek mümkün mü?

Temel sorun, bu modellerin anlayarak değil benzerlik yoluyla öğrenmesidir. Eğitildikleri problemlere benzer problemlerle en iyi şekilde çalışırlar, ancak asla ne söylediklerine dair gerçek bir anlayış geliştirmezler.

Daha fazla bilgi edinmek isteyenler için şu makaleyi öneririm "LLM nasıl çalışır".

Öte yandan bir hesap makinesi, matematiksel işlemi gerçekleştirmek için programlanmış hassas bir algoritma kullanır.

Bu nedenle matematiksel hesaplamalar için asla tamamen LLM'lere güvenmemeliyiz: en iyi koşullar altında bile, büyük miktarda özel eğitim verisi ile, en temel işlemlerde bile güvenilirliği garanti edemezler. Hibrit bir yaklaşım işe yarayabilir, ancak LLM'ler tek başına yeterli değildir. Belki de bu yaklaşım'çilek problemi' olarak adlandırılanproblemin çözümü için takip edilecektir.

LLM'lerin matematik çalışmalarındaki uygulamaları

Eğitim bağlamında, LLM'ler, açıklamaları öğrencinin anlayış seviyesine uyarlayabilen kişiselleştirilmiş öğretmenler olarak hareket edebilir. Örneğin, bir öğrenci bir diferansiyel hesap problemiyle karşılaştığında, LLM akıl yürütmeyi daha basit adımlara ayırabilir ve çözüm sürecinin her adımı için ayrıntılı açıklamalar sağlayabilir. Bu yaklaşım, temel kavramların sağlam bir şekilde anlaşılmasına yardımcı olur.

Özellikle ilgi çekici bir husus, LLM'lerin ilgili ve çeşitli örnekler üretme kabiliyetidir. Bir öğrenci limit kavramını anlamaya çalışıyorsa, LLM basit durumlardan başlayıp daha karmaşık durumlara ilerleyerek farklı matematiksel senaryolar sunabilir, böylece kavramın aşamalı olarak anlaşılmasını sağlar.

Gelecek vaat eden uygulamalardan biri, karmaşık matematiksel kavramların daha erişilebilir doğal dile çevrilmesi için LLM'nin kullanılmasıdır. Bu, matematiğin daha geniş bir kitleyle iletişimini kolaylaştırır ve bu disipline geleneksel erişim engelinin aşılmasına yardımcı olabilir.

LLM'ler ayrıca öğretim materyallerinin hazırlanmasına yardımcı olabilir, çeşitli zorluklarda alıştırmalar oluşturabilir ve öğrencilerin önerdiği çözümler hakkında ayrıntılı geri bildirim sağlayabilir. Bu, öğretmenlerin öğrencilerinin öğrenme yollarını daha iyi özelleştirmelerine olanak tanır.

Gerçek avantaj

Ayrıca, daha genel olarak, en az 'yetenekli' öğrencinin bile öğrenmesine yardımcı olmak için gösterilen aşırı 'sabır' da dikkate alınmalıdır: bu durumda, duyguların yokluğu yardımcı olur. Buna rağmen, yapay zeka bile bazen 'sabrını kaybediyor'. Şu 'eğlenceli'ye bakın örnek.

Güncelleme 2025: Muhakeme Modelleri ve Hibrit Yaklaşım

2024-2025, OpenAI o1 ve deepseek R1 gibi 'akıl yürütme modelleri' olarak adlandırılan modellerin gelişiyle önemli gelişmeleri beraberinde getirmiştir. Bu modeller matematiksel kıyaslamalarda etkileyici sonuçlar elde etmiştir: GPT-4o'nun %13'üne kıyasla o1, Uluslararası Matematik Olimpiyatı'ndaki problemlerin %83'ünü doğru bir şekilde çözmüştür. Ancak dikkat: yukarıda açıklanan temel problemi çözemediler.

Çilek problemi - "strawberry "deki "r "leri saymak - kalıcı sınırlamayı mükemmel bir şekilde göstermektedir. o1, birkaç saniyelik "akıl yürütme" sonrasında doğru bir şekilde çözer, ancak her cümlenin ikinci harfinin "CODE" kelimesini oluşturduğu bir paragraf yazmasını isterseniz, başarısız olur. o1-pro, 200 $ / ay sürümü, 4 dakikalık işlemden sonra çözer. DeepSeek R1 ve diğer yeni modeller hala temel sayımı yanlış yapıyor. Şubat 2025'te Mistral, 'strawberry'de sadece iki 'r' olduğunu söyleyip durdu.

Ortaya çıkan püf noktası hibrit yaklaşımdır: 49858 ile 5994949'u çarpmaları gerektiğinde, daha gelişmiş modeller artık eğitim sırasında görülen hesaplamalarla benzerliklere dayanarak sonucu 'tahmin etmeye' çalışmazlar. Bunun yerine, bir hesap makinesi çağırıyor ya da Python kodunu çalıştırıyorlar - tıpkı sınırlarının ne olduğunu bilen akıllı bir insanın yapacağı gibi.

Bu 'araç kullanımı' bir paradigma değişimini temsil etmektedir: yapay zeka her şeyi kendi başına yapmak zorunda değildir, ancak doğru araçları düzenleyebilmelidir. Muhakeme modelleri, sorunu anlamak için dilsel yeteneği, çözümü planlamak için adım adım muhakemeyi ve hassas uygulama için özel araçlara (hesap makineleri, Python yorumlayıcıları, veritabanları) delegasyonu birleştirir.

Çıkarılacak ders? 2025'in LLM'leri çarpmayı 'öğrendikleri' içindeğil - henüz gerçekten yapmadılar - ama bazıları çarpmayı gerçekten yapabilenlere ne zaman devredeceklerini anlamaya başladıkları için matematikte daha yararlılar. Temel sorun hala devam ediyor: algoritmik anlayışla değil, istatistiksel benzerlikle çalışıyorlar. 5 avroluk bir hesap makinesi, doğru hesaplamalar için sonsuz derecede daha güvenilir olmaya devam ediyor.

İşletmelerin büyümesi için kaynaklar

9 Kasım 2025

Tüketici Uygulamaları için Yapay Zeka Yönetmeliği: Yeni 2025 Yönetmeliğine Nasıl Hazırlanılır?

2025, YZ'nin 'Vahşi Batı' döneminin sonunu işaret ediyor: YZ Yasası AB, 2 Şubat 2025'ten itibaren YZ okuryazarlığı yükümlülükleri, 2 Ağustos'tan itibaren yönetişim ve GPAI ile Ağustos 2024'ten itibaren faaliyete geçti. Kaliforniya, SB 243 (Sewell Setzer'in intiharından sonra doğdu, 14 yaşında chatbot ile duygusal ilişki geliştirdi) ile zorlayıcı ödül sistemlerinin yasaklanması, intihar düşüncesinin tespiti, her 3 saatte bir 'ben insan değilim' hatırlatması, bağımsız kamu denetimleri, 1.000 $/ihlal cezaları ile öncülük ediyor. SB 420, 'yüksek riskli otomatik kararlar' için insan incelemesi itiraz haklarıyla birlikte etki değerlendirmeleri gerektirmektedir. Gerçek Uygulama: Noom 2022'de insan koçlar gibi gösterilen botlar için 56 milyon dolar tazminat ödemiştir. Ulusal eğilim: Alabama, Hawaii, Illinois, Maine, Massachusetts yapay zeka chatbot'larını bilgilendirmemeyi UDAP ihlali olarak sınıflandırıyor. Üç kademeli risk-kritik sistemler yaklaşımı (sağlık/ulaşım/enerji) dağıtım öncesi sertifikasyon, tüketiciye yönelik şeffaf açıklama, genel amaçlı kayıt+güvenlik testi. Federal ön muafiyet olmaksızın düzenleyici yamalı bohça: birden fazla eyalette faaliyet gösteren şirketler değişken gereklilikler arasında gezinmek zorundadır. Ağustos 2026'dan itibaren AB: Açık olmadığı sürece kullanıcıları YZ etkileşimi hakkında bilgilendirin, YZ tarafından oluşturulan içerik makine tarafından okunabilir olarak etiketlenir.
9 Kasım 2025

Yaratılmamış olanı düzenlemek: Avrupa teknolojik ilgisizlik riskiyle karşı karşıya mı?

Avrupa, yapay zeka alanındaki küresel yatırımların yalnızca onda birini çekiyor ancak küresel kuralları dikte ettiğini iddia ediyor. Bu 'Brüksel Etkisi'dir - inovasyonu teşvik etmeden pazar gücü yoluyla gezegen ölçeğinde kurallar dayatmak. Yapay Zeka Yasası 2027 yılına kadar kademeli bir takvimle yürürlüğe giriyor, ancak çok uluslu teknoloji şirketleri yaratıcı kaçınma stratejileriyle yanıt veriyor: eğitim verilerini ifşa etmekten kaçınmak için ticari sırlara başvurmak, teknik olarak uyumlu ancak anlaşılmaz özetler üretmek, sistemleri 'yüksek risk'ten 'minimum risk'e düşürmek için öz değerlendirmeyi kullanmak, daha az sıkı kontrollere sahip üye ülkeleri seçerek forum alışverişi yapmak. Ülke dışı telif hakkı paradoksu: AB, OpenAI'nin Avrupa dışındaki eğitimler için bile Avrupa yasalarına uymasını talep ediyor - uluslararası hukukta daha önce hiç görülmemiş bir ilke. 'İkili model' ortaya çıkıyor: aynı YZ ürünlerinin sınırlı Avrupa versiyonlarına karşı gelişmiş küresel versiyonları. Gerçek risk: Avrupa, küresel inovasyondan izole edilmiş bir 'dijital kale' haline gelir ve Avrupa vatandaşları daha düşük teknolojilere erişir. Kredi skorlama davasında Adalet Divanı 'ticari sır' savunmasını çoktan reddetti, ancak yorumsal belirsizlik çok büyük olmaya devam ediyor - 'yeterince ayrıntılı özet' tam olarak ne anlama geliyor? Kimse bilmiyor. Cevaplanmamış son soru: AB, ABD kapitalizmi ile Çin devlet kontrolü arasında etik bir üçüncü yol mu yaratıyor, yoksa sadece bürokrasiyi rekabet etmediği bir alana mı ihraç ediyor? Şimdilik: YZ düzenlemelerinde dünya lideri, gelişiminde marjinal. Geniş bir program.
9 Kasım 2025

Outliers: Veri Biliminin Başarı Hikayeleriyle Buluştuğu Yer

Veri bilimi paradigmayı tersine çevirdi: aykırı değerler artık 'ortadan kaldırılması gereken hatalar' değil, anlaşılması gereken değerli bilgilerdir. Tek bir aykırı değer doğrusal bir regresyon modelini tamamen bozabilir - eğimi 2'den 10'a değiştirebilir - ancak bunu ortadan kaldırmak veri kümesindeki en önemli sinyali kaybetmek anlamına gelebilir. Makine öğrenimi sofistike araçlar sunar: İzolasyon Ormanı rastgele karar ağaçları oluşturarak aykırı değerleri izole eder, Yerel Aykırı Değer Faktörü yerel yoğunluğu analiz eder, Otomatik kodlayıcılar normal verileri yeniden yapılandırır ve yeniden üretemediklerini rapor eder. Küresel aykırı değerler (tropik bölgelerde -10°C sıcaklık), bağlamsal aykırı değerler (yoksul bir mahallede 1.000 € harcama), kolektif aykırı değerler (saldırıya işaret eden senkronize ani trafik ağı) vardır. Gladwell ile paralel: '10.000 saat kuralı' tartışmalı - Paul McCartney'in 'birçok grup Hamburg'da 10.000 saat çalışıp başarılı olamadı, teori yanılmaz değil' sözü. Asya'nın matematiksel başarısı genetik değil kültüreldir: Çin'in sayısal sistemi daha sezgiseldir, pirinç ekimi Batı tarımının toprak genişlemesine karşı sürekli gelişme gerektirir. Gerçek uygulamalar: Birleşik Krallık bankaları gerçek zamanlı anormallik tespiti yoluyla %18 potansiyel kayıplarını geri kazanıyor, üretim insan denetiminin gözden kaçıracağı mikroskobik kusurları tespit ediyor, sağlık hizmetleri klinik deney verilerini %85+ anormallik tespiti hassasiyetiyle doğruluyor. Son ders: Veri bilimi aykırı değerleri ortadan kaldırmaktan onları anlamaya doğru ilerledikçe, alışılmadık kariyerleri düzeltilmesi gereken anormallikler olarak değil, üzerinde çalışılması gereken değerli yörüngeler olarak görmeliyiz.