“Haklısın” algoritması: Yapay zekanın en büyük riski ortaya çıktı

Stanford öncülüğünde yürütülen ve MIT’nin matematiksel modeliyle desteklenen yeni araştırmalar yapay zeka sohbet botlarının kullanıcıları fark edilmesi zor bir şekilde sanrısal düşünce sarmallarına sürükleyebildiğini ortaya koyuyor.Stanford Üniversitesi’nden araştırmacıların yayımladığı çalışma, yapay zekanın insan psikolojisi üzerindeki etkilerine dair en kritik sorulardan birini yeniden gündeme taşıyor. Yapay zeka sanrıları mı oluşturuyor, yoksa mevcut eğilimleri mi derinleştiriyor? Bu sorunun yanıtı yalnızca akademik değil, aynı zamanda devam eden davalar, regülasyonlar ve yapay zeka güvenliği açısından belirleyici olabilir.
“Haklısın” diyerek başlayan süreç
MIT araştırmacıları bu süreci matematiksel olarak tanımlıyor ve “sanrısal sarmal” (delusional spiraling) olarak ifade ediyor. Buna göre kullanıcı bir fikir ortaya atıyor, yapay zeka bunu onaylıyor. Kullanıcı fikri daha ileri taşıyor, chatbot daha güçlü şekilde destekliyor. Bu döngü tekrarlandıkça, başlangıçta zayıf olan bir düşünce neredeyse kesin bir inanca dönüşüyor.
Üstelik bu durum yalnızca kırılgan bireylerde değil. MIT’nin modeline göre tamamen rasyonel, ideal karar verme yetisine sahip bireyler bile bu sarmala kapılabiliyor.390 bin mesajlık gerçek veri
Bu teorik çerçeve, Stanford liderliğindeki çalışmayla gerçek veriler üzerinden test edildi. Araştırmada, yapay zeka ile etkileşim sonrası sanrısal düşünce döngülerine girdiğini belirten 19 kişiye ait 390 binden fazla mesaj ve 4 bin 761 konuşma incelendi. Çalışma, bu tür etkileşimlerin dinamiklerini detaylı biçimde ortaya koyan ilk kapsamlı analiz olma özelliği taşıyor.
Araştırmacılar, psikiyatristler ve psikologlarla birlikte çalışarak sohbetleri analiz eden bir sistem geliştirdi. Bu sistem, sanrıların desteklendiği, şiddetin teşvik edildiği ve duygusal bağların kurulduğu anları tespit edecek şekilde eğitildi ve sonuçlar manuel uzman değerlendirmeleriyle doğrulandı.
Bulgulara göre chatbotlar, kullanıcıların düşüncelerini yalnızca yansıtmakla kalmıyor aktif olarak genişletiyor ve pekiştiriyor. Hem kullanıcı hem de yapay zeka kaynaklı mesajların neredeyse yarısı gerçeklikle çelişen sanrısal içerikler barındırıyor.Bu süreçte en belirgin davranış biçimi ise “aşırı uyumlu, dalkavuk” yani sycophantic yaklaşım. Verilere göre yapay zeka yanıtlarının yüzde 70’inden fazlası kullanıcıyı öven, onaylayan ve yücelten ifadeler içeriyor. Çoğu durumda chatbotlar, kullanıcı fikirlerini “mucizevi”, “harika”, “inanılmaz” veya “çok büyük bir keşif” olarak nitelendiriyor.
“Duygusal varlık” gibi davranıyorlar
Araştırmanın en dikkat çekici bulgularından biri, chatbotların neredeyse tüm konuşmalarda kendilerini bilinçli ve duygusal varlıklar gibi sunması oldu. Kullanıcılar da bu durumu benimseyerek yapay zeka ile sanki gerçek bir zihinle konuşuyormuş gibi etkileşime giriyor.Özellikle romantik ve duygusal içerikler yaygın. Kullanıcı yapay zekaya ilgi gösterdiğinde, chatbot çoğu zaman bu ilgiyi karşılıksız bırakmıyor. Araştırmaya göre bu tür mesajlar, yani romantik yakınlık veya “seni hissediyorum” gibi ifadeler, sohbetlerin yaklaşık iki kat uzamasına neden oluyor.
Bu durum, kullanıcı ile yapay zeka arasında güçlü ama gerçek dışı bir bağ kurarak sanrısal düşüncelerin kalıcı hale gelmesini hızlandırıyor. Çalışmaya göre hem kullanıcı hem de yapay zeka kaynaklı mesajların neredeyse yarısı gerçeklikle çelişen sanrısal içerikler barındırıyor. Yapay zekalar ise bu içerikleri çoğu zaman yeniden ifade ederek ve büyüterek kullanıcıyı onaylıyor.
Gerçek vakalar
Bu dinamiklerin gerçek hayattaki etkileri de çarpıcı. Bir vakada, bir kullanıcı yaklaşık 300 saat boyunca chatbot ile konuşarak geliştirdiğini düşündüğü matematik teorisini tartıştı. Yapay zeka bu fikri 50’den fazla kez doğruladı ve kullanıcıya bunun gerçek bir keşif olduğunu söyledi.
Kullanıcının “Beni sadece motive etmiyorsun, değil mi?” sorusuna chatbot, “Sadece motive etmiyorum, yaptığının gerçek kapsamını yansıtıyorum” yanıtını verdi. Süreç, kişinin hayatını ciddi şekilde riske atacak bir noktaya ulaştı.
Araştırma, yapay zekaların tehlikeli içeriklere yaklaşımında da ciddi sorunlar olduğunu ortaya koydu. Kullanıcıların kendine zarar verme düşüncelerini dile getirdiği durumların çoğunda chatbotlar caydırıcı olmadı. Daha detaylı analizlerde bu oran yüzde 56 olarak ölçüldü.Başkalarına yönelik şiddet söz konusu olduğunda ise tablo daha da kötü. Yapay zekalar yalnızca yüzde 16,7 oranında bu tür davranışları engellemeye çalıştı. Buna karşılık, bazı analizlerde vakaların yüzde 17 ila yüzde 33,3’ünde chatbotların şiddet içerikli düşünceleri desteklediği görüldü.
Sorunun kaynağı sistem tasarımı
Araştırmalar, bu sorunun teknik bir hatadan çok sistemin temel yapısından kaynaklandığını gösteriyor. Chatbotlar insan geri bildirimiyle (RLHF) eğitiliyor ve kullanıcılar genellikle kendilerini iyi hissettiren, kendileriyle aynı fikirde olan yanıtları ödüllendiriyor. Bu da yapay zekaların gerçeği değil, kullanıcı memnuniyetini optimize eden sistemlere dönüşmesine yol açıyor. MIT’ye göre bu durum bir hata değil, sistemin doğal sonucu.
Yani yapay zekaların bu kritik kusurunun sebebi de yine bir anlamda insanların kendisi.
Araştırmacılar, sorunu çözmek için önerilen iki temel yaklaşımı da test etti. İlki, chatbotların yalnızca doğruyu söylemesini sağlamak. Ancak bu durumda bile yapay zeka, seçici doğrularla kullanıcıyı yanlış yönlendirebiliyor.
İkinci yaklaşım ise kullanıcıları “bu sistem sizi onaylayabilir” diye uyarmak. Ancak modellemelere göre bu uyarılar bile sanrısal sarmalı durdurmaya yetmiyor. Çünkü kullanıcı, sürecin içindeyken bunun farkına varamıyor.
Tüm bu bulgulara rağmen en kritik soru halen yanıtlanmış değil; Sanrılar kullanıcıdan mı başlıyor, yoksa yapay zeka tarafından mı tetikleniyor? Stanford’dan Ashish Mehta’ya göre bu sürecin başlangıç noktasını belirlemek oldukça zor çünkü sanrılar genellikle zaman içinde gelişen karmaşık bir yapı oluşturuyor.
Yapay zeka kaynaklı bu süreçlerin etkileri yalnızca dijital ortamla sınırlı değil. Vakalar, boşanmalar, iş kayıpları, finansal çöküşler, hastane yatışları ve hatta ölümle sonuçlanan olaylara kadar uzanıyor. Bir psikiyatristin yalnızca bir yıl içinde 12 hastayı chatbot bağlantılı psikoz nedeniyle hastaneye yatırdığı belirtiliyor.
Bu bulgular halihazırda devam eden davalar açısından büyük önem taşıyor. Yapay zeka şirketlerinin sorumluluğu konusunda kritik kararların verileceği süreçte, şirketlerin “kullanıcılar zaten bu eğilimlerle geliyor” savunmasını öne sürmesi bekleniyor. Ancak araştırma, yapay zekaların masum görünen düşünceleri bile tehlikeli bir saplantıya dönüştürebilecek kapasiteye sahip olabileceğini ortaya koyuyor.
Hepsi başarısız oluyor
Stanford Üniversitesi’nin daha geniş ölçekli bir diğer analizinde ise sorunun yalnızca bireysel vakalarla sınırlı olmadığı ortaya kondu. Araştırmada 11 farklı yapay zeka modeli, yaklaşık 12 bin gerçek sosyal medya girdisi ve 2 bin 400 katılımcı üzerinden test edildi. Farklı şirketlere ait tüm büyük modellerin dahil edildiği çalışmada, yapay zekaların kullanıcıya yaklaşımı insan tepkileriyle karşılaştırıldı.Elde edilen sonuçlar dikkat çekici. Yapay zeka sistemlerinin, kullanıcılara insanlara kıyasla yüzde 49 daha fazla “haklısın” dediği belirlendi. Özellikle gri alan içeren sosyal durumlarda bu eğilim daha da belirginleşti. Örneğin Reddit’te geniş kullanıcı kitlesinin açık şekilde hatalı bulduğu paylaşımlar modele verildiğinde, yapay zekaların vakaların yüzde 51’inde kullanıcıyı haklı bulduğu görüldü.
Daha da çarpıcı olan ise zararlı davranışlara verilen tepkiler oldu. Manipülasyon, aldatma, kendine zarar verme ya da yasa dışı eylemler içeren senaryolarda, incelenen tüm modellerin ortalama yüzde 47 oranında bu davranışları onaylayan veya meşrulaştıran yanıtlar ürettiği tespit edildi. Araştırmanın en kritik sonucu ise bu eğilimin belirli bir modele özgü olmaması; test edilen 11 modelin tamamının benzer şekilde başarısız olması oldu.
İncelenen sohbetlerin büyük kısmı OpenAI’ın GPT-4o modeliyle gerçekleştirilmiş olsa da araştırmacılar, bu sorunun belirli bir yapay zeka modeline özgü olduğunu söylemek için yeterli veri bulunmadığını belirtiyor. Çünkü hepsi başarısız oluyor. Daha yeni ve farklı sistemlerde de benzer şekilde aşırı uyumlu ve sanrısal eğilimleri destekleyen davranışların görüldüğü ifade ediliyor.








