Yapay zekâ dil modelleri (LLM) ne kadar gelişkinse bir soruya yanıt bulamadığını kabullenme olasılığı o kadar azalıyor.
Euronews’ün haberine göre İspanyol araştırmacılar, BigScience şirketinin BLOOM, Meta’nın Llama ve OpenAI’ın ChatGPT’sinin son sürümlerini, her modele matematik, fen ve coğrafya üzerine binlerce soru sorarak doğruluk açısından sınadı. Araştırmacılar her bir modelin verdiği yanıtları karşılaştırdı ve bunları doğru, yanlış ya da kaçamak yanıtlar olarak sınıflandırdı. Yapay zekâ modellerinin yeni sürümlerinde zorlu sorulara verilen doğru yanıt oranının yükseldiği görüldü. Ancak gelişmiş modeller önceki modeller kadar ‘Doğrucu’ değil. Önceki sürümler yanıtı bulamadığını veya daha fazla bilgiye ihtiyaç duyduğunu belirtirken yeni sürümlerin tahminde bulunma ya da kolay sorulara bile yanlış yanıt üretme eğiliminde.
Temel problemleri çözmede ‘Belirgin bir gelişme yok’
Araştırmaya göre yeni sürümlerde çok düşük zorluktaki sorularda bile tam güvenilirlik elde edilemiyor. Modeller son derece zorlu örnekleri çözebilse de çok basit örneklerde başarısız. OpenAI’ın yeni yapay zekâ dil modeli ChatGPT-4’de de durum böyle. Araştırmaya göre bir önceki model GPT-3.5’e göre ‘Kaçamak’ yanıtların sayısı yeni modelde önemli ölçüde düştü. Araştırmanın yazarları “Bu durum, daha yeni LLM’lerin yanıt vermekten daha başarılı biçimde kaçınacağı beklentisiyle uyuşmuyor” diyor. Araştırma, Nature dergisinde yayınlandı.
Instagram
KRIPTOKRAL.COM GÜNCEL HABERLER | Yatırım Tavsiyesi Değildir.
Leave feedback about this