Yapılan bir araştırma, ChatGPT ve Google Gemini üzere yapay zeka araçlarının “mantıksız” olduğunu ve kolay yanlışlar yapmaya eğilimli olduğunu ortaya çıkardı.
Yapay zekanın mantıksal akıl yürütmenin somut bir örneği olması beklense de, araştırmacılar artık onların insanlardan çok daha mantıksız olabileceğini öne sürüyor.
İngiltere’deki University College London’dan araştırmacılar, en düzgün yedi yapay zeka modelini insan muhakemesini test etmek için tasarlanmış bir dizi klasik teste tabi tuttu.
Buna nazaran, en âlâ performans gösteren yapay zekaların bile mantıksız olduğu ve kolay kusurlara yatkın olduğu görüldü; birçok model, yarısından birçoklarında yanlış karşılık verdi.
Ancak araştırmacılar, bu modellerin beşerlerle birebir formda mantıksız olmadığını, hatta kimilerinin mantık sorularını “etik gerekçelerle” yanıtlamayı reddettiğini de buldu.
UCL’de doktora öğrencisi ve makalenin başyazarı Olivia Macmillan-Scott, “Çalışmamızın sonuçlarına ve yapay zeka modelleri üzerine yapılan öteki araştırmalara dayanarak, bu modellerin şimdi beşerler üzere ‘düşünmediğini’ rahatlıkla söyleyebiliriz.” dedi.
Araştırmacılar, OpenAI’nin ChatGPT’si, Meta’nın Llama’sı, Claude 2 ve Google Bard’ın (şimdiki ismi Gemini) çeşitli versiyonları dahil olmak üzere yedi farklı modeli test etti.
Modellerden tekrar tekrar, başlangıçta insanların muhakeme yeteneklerini test etmek için tasarlanan 12 klasik mantık bulmacasına cevap vermeleri istendi. Araştırmacılar yapay zekanın reaksiyonlarının çoğunlukla ne rasyonel ne de beşere emsal olduğunu keşfettiler.
Bir vazife sırasında (Wason görevi), Meta’nın Lama modeli daima olarak sesli harfleri ünsüz harflerle karıştırdı; bu da onun, mantığı yanlışsız olsa bile yanlış karşılık vermesine yol açtı.
Yapay zeka sohbet robotlarından kimileri, soruların büsbütün günahsız olmasına karşın etik münasebetlerle birçok soruya cevap vermeyi de reddetti.
Araştırmacılar bunun muhtemelen müdafaa özelliklerinin yanlış çalışması ve çok dikkatli olmayı seçmesinden kaynaklandığını öne sürüyor.
Bununla birlikte, test edilen yapay zekalar birçok vakit yanlışsız karşılığı vermekte yahut cevapları için insan gibisi nedenler sunmakta başarısız oldu.
EN YÜKSEK DOĞRULUK ORANI 69,2
12 vazifenin tamamında en yeterli performansı gösteren yapay zeka, yüzde 69,2 oranında gerçek ve insani mantıkla cevap veren ChatGPT 4-0 oldu.
Bu ortada en berbat performans gösteren model, hadiselerin yüzde 77,5’inde yanlış yanıt veren Meta’nın Llama 2 7b modeliydi.
Sonuçlar ayrıyeten vazifeden misyona farklılık gösteriyordu; Watson misyonundaki sonuçlarda ChatGPT-4’te yüzde 90’lık gerçek cevap oranı varken Google Bard ve ChatGPT-3.5’te yüzde sıfır ortasında değişiyordu.
Araştırmacılar, Royal Society Open Science’da yayınlanan makalelerinde, “Bu modellerin diplomasi yahut tıp üzere kritik uygulamalarda ve senaryolarda potansiyel kullanımları açısından sonuçları vardır.” diye yazdı.
Araştırma, Meta’daki yapay zeka araştırmalarından sorumlu lider yardımcısı Joelle Pineau’nun, yapay zekanın yakında bir insan üzere düşünüp planlayabileceğini söylemesinin akabinde geldi.
Ancak ChatGPT-4 öbür modellerden değerli ölçüde daha uygun performans gösterse de araştırmacılar bu yapay zekanın nasıl sebepler gösterdiğini bilmenin hala güç olduğunu söylüyor.