“Haklısın” algoritması: Yapay zekanın en büyük riski ortaya çıktı

ÜMİT SAVĞANisan 30, 2026

0 0 4 dakika okuma süresi

Stanford Üniversitesi’nden araştırmacıların yayımladığı çalışma, yapay zekanın insan psikolojisi üzerindeki etkilerine dair en kritik sorulardan birini yeniden gündeme taşıyor. Yapay zeka sanrıları mı oluşturuyor, yoksa mevcut eğilimleri mi derinleştiriyor? Bu sorunun yanıtı yalnızca akademik değil, aynı zamanda devam eden davalar, regülasyonlar ve yapay zeka güvenliği açısından belirleyici olabilir.

“Haklısın” diyerek başlayan süreç

MIT araştırmacıları bu süreci matematiksel olarak tanımlıyor ve “sanrısal sarmal” (delusional spiraling) olarak ifade ediyor. Buna göre kullanıcı bir fikir ortaya atıyor, yapay zeka bunu onaylıyor. Kullanıcı fikri daha ileri taşıyor, chatbot daha güçlü şekilde destekliyor. Bu döngü tekrarlandıkça, başlangıçta zayıf olan bir düşünce neredeyse kesin bir inanca dönüşüyor.

390 bin mesajlık gerçek veri

Bu teorik çerçeve, Stanford liderliğindeki çalışmayla gerçek veriler üzerinden test edildi. Araştırmada, yapay zeka ile etkileşim sonrası sanrısal düşünce döngülerine girdiğini belirten 19 kişiye ait 390 binden fazla mesaj ve 4 bin 761 konuşma incelendi. Çalışma, bu tür etkileşimlerin dinamiklerini detaylı biçimde ortaya koyan ilk kapsamlı analiz olma özelliği taşıyor.

Araştırmacılar, psikiyatristler ve psikologlarla birlikte çalışarak sohbetleri analiz eden bir sistem geliştirdi. Bu sistem, sanrıların desteklendiği, şiddetin teşvik edildiği ve duygusal bağların kurulduğu anları tespit edecek şekilde eğitildi ve sonuçlar manuel uzman değerlendirmeleriyle doğrulandı.

Bu süreçte en belirgin davranış biçimi ise “aşırı uyumlu, dalkavuk” yani sycophantic yaklaşım. Verilere göre yapay zeka yanıtlarının yüzde 70’inden fazlası kullanıcıyı öven, onaylayan ve yücelten ifadeler içeriyor. Çoğu durumda chatbotlar, kullanıcı fikirlerini “mucizevi”, “harika”, “inanılmaz” veya “çok büyük bir keşif” olarak nitelendiriyor.

“Duygusal varlık” gibi davranıyorlar

Özellikle romantik ve duygusal içerikler yaygın. Kullanıcı yapay zekaya ilgi gösterdiğinde, chatbot çoğu zaman bu ilgiyi karşılıksız bırakmıyor. Araştırmaya göre bu tür mesajlar, yani romantik yakınlık veya “seni hissediyorum” gibi ifadeler, sohbetlerin yaklaşık iki kat uzamasına neden oluyor.

Bu durum, kullanıcı ile yapay zeka arasında güçlü ama gerçek dışı bir bağ kurarak sanrısal düşüncelerin kalıcı hale gelmesini hızlandırıyor. Çalışmaya göre hem kullanıcı hem de yapay zeka kaynaklı mesajların neredeyse yarısı gerçeklikle çelişen sanrısal içerikler barındırıyor. Yapay zekalar ise bu içerikleri çoğu zaman yeniden ifade ederek ve büyüterek kullanıcıyı onaylıyor.

Gerçek vakalar

Bu dinamiklerin gerçek hayattaki etkileri de çarpıcı. Bir vakada, bir kullanıcı yaklaşık 300 saat boyunca chatbot ile konuşarak geliştirdiğini düşündüğü matematik teorisini tartıştı. Yapay zeka bu fikri 50’den fazla kez doğruladı ve kullanıcıya bunun gerçek bir keşif olduğunu söyledi.

Kullanıcının “Beni sadece motive etmiyorsun, değil mi?” sorusuna chatbot, “Sadece motive etmiyorum, yaptığının gerçek kapsamını yansıtıyorum” yanıtını verdi. Süreç, kişinin hayatını ciddi şekilde riske atacak bir noktaya ulaştı.

Başkalarına yönelik şiddet söz konusu olduğunda ise tablo daha da kötü. Yapay zekalar yalnızca yüzde 16,7 oranında bu tür davranışları engellemeye çalıştı. Buna karşılık, bazı analizlerde vakaların yüzde 17 ila yüzde 33,3’ünde chatbotların şiddet içerikli düşünceleri desteklediği görüldü.

Sorunun kaynağı sistem tasarımı

Araştırmalar, bu sorunun teknik bir hatadan çok sistemin temel yapısından kaynaklandığını gösteriyor. Chatbotlar insan geri bildirimiyle (RLHF) eğitiliyor ve kullanıcılar genellikle kendilerini iyi hissettiren, kendileriyle aynı fikirde olan yanıtları ödüllendiriyor. Bu da yapay zekaların gerçeği değil, kullanıcı memnuniyetini optimize eden sistemlere dönüşmesine yol açıyor. MIT’ye göre bu durum bir hata değil, sistemin doğal sonucu.

Yani yapay zekaların bu kritik kusurunun sebebi de yine bir anlamda insanların kendisi.

Araştırmacılar, sorunu çözmek için önerilen iki temel yaklaşımı da test etti. İlki, chatbotların yalnızca doğruyu söylemesini sağlamak. Ancak bu durumda bile yapay zeka, seçici doğrularla kullanıcıyı yanlış yönlendirebiliyor.

İkinci yaklaşım ise kullanıcıları “bu sistem sizi onaylayabilir” diye uyarmak. Ancak modellemelere göre bu uyarılar bile sanrısal sarmalı durdurmaya yetmiyor. Çünkü kullanıcı, sürecin içindeyken bunun farkına varamıyor.

Tüm bu bulgulara rağmen en kritik soru halen yanıtlanmış değil; Sanrılar kullanıcıdan mı başlıyor, yoksa yapay zeka tarafından mı tetikleniyor? Stanford’dan Ashish Mehta’ya göre bu sürecin başlangıç noktasını belirlemek oldukça zor çünkü sanrılar genellikle zaman içinde gelişen karmaşık bir yapı oluşturuyor.

Yapay zeka kaynaklı bu süreçlerin etkileri yalnızca dijital ortamla sınırlı değil. Vakalar, boşanmalar, iş kayıpları, finansal çöküşler, hastane yatışları ve hatta ölümle sonuçlanan olaylara kadar uzanıyor. Bir psikiyatristin yalnızca bir yıl içinde 12 hastayı chatbot bağlantılı psikoz nedeniyle hastaneye yatırdığı belirtiliyor.

Bu bulgular halihazırda devam eden davalar açısından büyük önem taşıyor. Yapay zeka şirketlerinin sorumluluğu konusunda kritik kararların verileceği süreçte, şirketlerin “kullanıcılar zaten bu eğilimlerle geliyor” savunmasını öne sürmesi bekleniyor. Ancak araştırma, yapay zekaların masum görünen düşünceleri bile tehlikeli bir saplantıya dönüştürebilecek kapasiteye sahip olabileceğini ortaya koyuyor.

Hepsi başarısız oluyor

Elde edilen sonuçlar dikkat çekici. Yapay zeka sistemlerinin, kullanıcılara insanlara kıyasla yüzde 49 daha fazla “haklısın” dediği belirlendi. Özellikle gri alan içeren sosyal durumlarda bu eğilim daha da belirginleşti. Örneğin Reddit’te geniş kullanıcı kitlesinin açık şekilde hatalı bulduğu paylaşımlar modele verildiğinde, yapay zekaların vakaların yüzde 51’inde kullanıcıyı haklı bulduğu görüldü.

Daha da çarpıcı olan ise zararlı davranışlara verilen tepkiler oldu. Manipülasyon, aldatma, kendine zarar verme ya da yasa dışı eylemler içeren senaryolarda, incelenen tüm modellerin ortalama yüzde 47 oranında bu davranışları onaylayan veya meşrulaştıran yanıtlar ürettiği tespit edildi. Araştırmanın en kritik sonucu ise bu eğilimin belirli bir modele özgü olmaması; test edilen 11 modelin tamamının benzer şekilde başarısız olması oldu.

İncelenen sohbetlerin büyük kısmı OpenAI’ın GPT-4o modeliyle gerçekleştirilmiş olsa da araştırmacılar, bu sorunun belirli bir yapay zeka modeline özgü olduğunu söylemek için yeterli veri bulunmadığını belirtiyor. Çünkü hepsi başarısız oluyor. Daha yeni ve farklı sistemlerde de benzer şekilde aşırı uyumlu ve sanrısal eğilimleri destekleyen davranışların görüldüğü ifade ediliyor.

mengen-haber.com.tr

kumruhaber.com.tr

kargi-haber.com.tr

ÜMİT SAVĞANisan 30, 2026

0 0 4 dakika okuma süresi