Newsletter

Matematik neden zordur (bir yapay zeka olsanız bile)

Dil modelleri bizim pi sayısını ezberlediğimiz gibi sonuçları nasıl çarparak ezberleyeceklerini bilmezler, ancak bu onları matematikçi yapmaz. Sorun yapısaldır: algoritmik anlayışla değil, istatistiksel benzerlikle öğrenirler. O1 gibi yeni 'akıl yürütme modelleri' bile önemsiz görevlerde başarısız oluyor: saniyeler süren bir işlemden sonra 'çilek' kelimesindeki 'r'yi doğru sayıyor, ancak her cümlenin ikinci harfinin bir kelime oluşturduğu bir paragraf yazması gerektiğinde başarısız oluyor. Aylık 200 dolarlık premium sürümün bir çocuğun anında yapabildiği işi çözmesi dört dakika sürüyor. DeepSeek ve Mistral 2025'te hala harfleri yanlış sayıyor. Yeni ortaya çıkan çözüm? Hibrit yaklaşım - en akıllı modeller, hesaplamayı kendileri yapmak yerine ne zaman gerçek bir hesap makinesi çağıracaklarını bulmuşlardır. Paradigma değişimi: YZ'nin her şeyi nasıl yapacağını bilmesi gerekmiyor, doğru araçları düzenlemesi gerekiyor. Son paradoks: GPT-4 size limitler teorisini zekice açıklayabilir ama bir cep hesap makinesinin her zaman doğru çözdüğü çarpma işlemlerini yanlış yapar. Matematik eğitimi için mükemmeldirler - sonsuz sabırla açıklarlar, örnekleri uyarlarlar, karmaşık muhakemeleri çözerler. Kesin hesaplamalar için mi? Hesap makinesine güvenin, yapay zekaya değil.

Birçok kişi LLM Ayrıca matematiksel işlemler yapmak için. Bu yaklaşım işe yaramıyor .

Sorun aslında basit: büyük dil modelleri (LLM) nasıl çarpma yapılacağını gerçekten bilmiyor. Bazen pi sayısının değerini ezbere bildiğim gibi sonucu doğru çıkarabilirler. Ancak bu ne benim bir matematikçi olduğum anlamına gelir ne de LLM'lerin gerçekten matematik yapmayı bildiği anlamına gelir.

Pratik örnek

Örnek: 49858 *59949 = 298896167242 Bu sonuç her zaman aynıdır, ortası yoktur. Ya doğrudur ya da yanlıştır.

Yoğun matematik eğitimine rağmen, en iyi modeller işlemlerin yalnızca bir kısmını doğru çözmeyi başarır. Öte yandan basit bir cep hesap makinesi, sonuçların %100'ünü her zaman doğru alır. Sayılar büyüdükçe, LLM'lerin performansı da kötüleşir.

Bu sorunu çözmek mümkün mü?

Temel sorun, bu modellerin anlayarak değil benzerlik yoluyla öğrenmesidir. Eğitildikleri problemlere benzer problemlerle en iyi şekilde çalışırlar, ancak asla ne söylediklerine dair gerçek bir anlayış geliştirmezler.

Daha fazla bilgi edinmek isteyenler için şu makaleyi öneririm "LLM nasıl çalışır".

Öte yandan bir hesap makinesi, matematiksel işlemi gerçekleştirmek için programlanmış hassas bir algoritma kullanır.

Bu nedenle matematiksel hesaplamalar için asla tamamen LLM'lere güvenmemeliyiz: en iyi koşullar altında bile, büyük miktarda özel eğitim verisi ile, en temel işlemlerde bile güvenilirliği garanti edemezler. Hibrit bir yaklaşım işe yarayabilir, ancak LLM'ler tek başına yeterli değildir. Belki de bu yaklaşım'çilek problemi' olarak adlandırılanproblemin çözümü için takip edilecektir.

LLM'lerin matematik çalışmalarındaki uygulamaları

Eğitim bağlamında, LLM'ler, açıklamaları öğrencinin anlayış seviyesine uyarlayabilen kişiselleştirilmiş öğretmenler olarak hareket edebilir. Örneğin, bir öğrenci bir diferansiyel hesap problemiyle karşılaştığında, LLM akıl yürütmeyi daha basit adımlara ayırabilir ve çözüm sürecinin her adımı için ayrıntılı açıklamalar sağlayabilir. Bu yaklaşım, temel kavramların sağlam bir şekilde anlaşılmasına yardımcı olur.

Özellikle ilgi çekici bir husus, LLM'lerin ilgili ve çeşitli örnekler üretme kabiliyetidir. Bir öğrenci limit kavramını anlamaya çalışıyorsa, LLM basit durumlardan başlayıp daha karmaşık durumlara ilerleyerek farklı matematiksel senaryolar sunabilir, böylece kavramın aşamalı olarak anlaşılmasını sağlar.

Gelecek vaat eden uygulamalardan biri, karmaşık matematiksel kavramların daha erişilebilir doğal dile çevrilmesi için LLM'nin kullanılmasıdır. Bu, matematiğin daha geniş bir kitleyle iletişimini kolaylaştırır ve bu disipline geleneksel erişim engelinin aşılmasına yardımcı olabilir.

LLM'ler ayrıca öğretim materyallerinin hazırlanmasına yardımcı olabilir, çeşitli zorluklarda alıştırmalar oluşturabilir ve öğrencilerin önerdiği çözümler hakkında ayrıntılı geri bildirim sağlayabilir. Bu, öğretmenlerin öğrencilerinin öğrenme yollarını daha iyi özelleştirmelerine olanak tanır.

Gerçek avantaj

Ayrıca, daha genel olarak, en az 'yetenekli' öğrencinin bile öğrenmesine yardımcı olmak için gösterilen aşırı 'sabır' da dikkate alınmalıdır: bu durumda, duyguların yokluğu yardımcı olur. Buna rağmen, yapay zeka bile bazen 'sabrını kaybediyor'. Şu 'eğlenceli'ye bakın örnek.

Güncelleme 2025: Muhakeme Modelleri ve Hibrit Yaklaşım

2024-2025, OpenAI o1 ve deepseek R1 gibi 'akıl yürütme modelleri' olarak adlandırılan modellerin gelişiyle önemli gelişmeleri beraberinde getirmiştir. Bu modeller matematiksel kıyaslamalarda etkileyici sonuçlar elde etmiştir: GPT-4o'nun %13'üne kıyasla o1, Uluslararası Matematik Olimpiyatı'ndaki problemlerin %83'ünü doğru bir şekilde çözmüştür. Ancak dikkat: yukarıda açıklanan temel problemi çözemediler.

Çilek problemi - "strawberry "deki "r "leri saymak - kalıcı sınırlamayı mükemmel bir şekilde göstermektedir. o1, birkaç saniyelik "akıl yürütme" sonrasında doğru bir şekilde çözer, ancak her cümlenin ikinci harfinin "CODE" kelimesini oluşturduğu bir paragraf yazmasını isterseniz, başarısız olur. o1-pro, 200 $ / ay sürümü, 4 dakikalık işlemden sonra çözer. DeepSeek R1 ve diğer yeni modeller hala temel sayımı yanlış yapıyor. Şubat 2025'te Mistral, 'strawberry'de sadece iki 'r' olduğunu söyleyip durdu.

Ortaya çıkan püf noktası hibrit yaklaşımdır: 49858 ile 5994949'u çarpmaları gerektiğinde, daha gelişmiş modeller artık eğitim sırasında görülen hesaplamalarla benzerliklere dayanarak sonucu 'tahmin etmeye' çalışmazlar. Bunun yerine, bir hesap makinesi çağırıyor ya da Python kodunu çalıştırıyorlar - tıpkı sınırlarının ne olduğunu bilen akıllı bir insanın yapacağı gibi.

Bu 'araç kullanımı' bir paradigma değişimini temsil etmektedir: yapay zeka her şeyi kendi başına yapmak zorunda değildir, ancak doğru araçları düzenleyebilmelidir. Muhakeme modelleri, sorunu anlamak için dilsel yeteneği, çözümü planlamak için adım adım muhakemeyi ve hassas uygulama için özel araçlara (hesap makineleri, Python yorumlayıcıları, veritabanları) delegasyonu birleştirir.

Çıkarılacak ders? 2025'in LLM'leri çarpmayı 'öğrendikleri' içindeğil - henüz gerçekten yapmadılar - ama bazıları çarpmayı gerçekten yapabilenlere ne zaman devredeceklerini anlamaya başladıkları için matematikte daha yararlılar. Temel sorun hala devam ediyor: algoritmik anlayışla değil, istatistiksel benzerlikle çalışıyorlar. 5 avroluk bir hesap makinesi, doğru hesaplamalar için sonsuz derecede daha güvenilir olmaya devam ediyor.

İşletmelerin büyümesi için kaynaklar