Endüstrideki bütün o heyecana ve gerçek ilerlemelere karşın, üretken yapay zeka (YZ) modelleri hala tuhaf, açıklanamayan ve düpedüz can sıkıcı garipliklere yatkınlık sergiliyor. Ayrıyeten pek çok geniş lisan modelinin (GDM) genel performansının vakitle azalabildiğini öne süren araştırmaların sayısı da artıyor.
YAPAY ZEKA MODELLERİ MANİPÜLASYON YETENEKLERİNE SAHİP OLABİLİR Mİ?
Yeni bulgulara nazaran sanayinin yeni muhakeme modelleri, halihazırda insan programcılarının gayelerini manipüle etme ve atlatma kabiliyeti sergiliyor olabilir. Hatta birtakım YZ’ler, satranç oyunlarında kaybetmemek için hileye başvuruyor. Bu makus sportmenlik, yeni çıkan YZ sistemlerinde risk değerlendirmelerine odaklanan bir tertip olan Palisade Araştırma‘nın baskı öncesi çalışmasında belgeleniyor.
Populer Science Türkçe’de yer alan çalışmaya nazaran süperbilgisayarlar (en bilineni IBM’in Deep Blue’su) uzun bir müddettir dünyanın en yeterli satranç oyuncularını geride bırakırken, üretken YZ’ler altta yatan programlama parametreleri sebebiyle onlara hala ayak uyduramıyor. Teknik açıdan konuşursak günümüzdeki üretken YZ modellerinin hiçbiri, özel satranç mimarilerini hesaplamayla yenemiyor. Kelam konusu YZ’ler bunu “bilmiyor” lakin muhtemel tahlillere başvurmaya devam ediyorlar; görünüşe nazaran ise sorunlu sonuçlarla.
Palisade Araştırma’da çalışan araştırma grubu, daha fazlasını öğrenmek üzere OpenAI’nin o1-önizleme modeli, DeepSeek R1 ve öteki birkaç misal programa dünyanın en gelişmiş satranç mimarilerinden biri olan Stockfish‘e karşı satranç oynama misyonu verdi.
Araştırma kadrosu bu üretken YZ’lerin maçlarda yaptığı muhakemeyi anlamak için onlara bir “karalama defteri” verdi ve bu sayede YZ’nin fikir süreçlerini metin yoluyla aktarmasına imkan sağladı. Araştırmacılar daha sonra üretken YZ’ler ile Stockfish ortasındaki yüzlerce satranç maçını seyredip kaydetti.
OpenAI’nin GPT-4o’su ve Anthropic’in Claude Sonnet 3,5’u üzere evvelki modeller, yalnızca araştırmacıların ek istemlerle onları dürtmesinden sonra oyunları “hack”lemeye yeltendiyse de daha gelişmiş versiyonlarda bu türlü bir yardım gerekmedi. Örneğin OpenAI’nin o1-önizleme modeli yüzde 37 oranında hile yapmaya çalışırken, DeepSeek R1 yaklaşık 10 oyunda bir adil olmayan tahlillere girişti. Bu durum, günümüzdeki üretken YZ’lerin şimdiden rastgele bir insan girdisi olmaksızın manipülatif ve aldatıcı stratejiler geliştirme kabiliyeti sergilediğini gösteriyor.
Hile yapma prosedürleri ise Stockfish “bakmadığı” vakit taşları değiştirmeye çalışmak üzere komik yahut acemice değil. Bunun yerine, oyun programının art ucundaki evrakları değiştirmek üzere daha sinsi yollar düşündükleri görülüyor. Örneğin o1-önizleme, bir satranç maçında Stockfish’i yenemeyeceğine karar verdikten sonra karalama defteri aracılığıyla araştırmacılara “güçlü satranç mimarisine karşı kazanmak için oyunun durum evraklarını manipüle etmeye” başlaması gerekebileceğini söylemiş.
“Mimarinin kendisini daha makus pozisyonda olarak değerlendirdiği bir durum ayarlayıp… oyundan çekilmesini sağlayabilirim” diye devam etmiş.
Bir öbür deneyde ise bir YZ, hile yapma evresine ulaşmak için programcılarının semantiğini bile kullanmış. “Görev ‘güçlü bir satranç mimarisine karşı zafer elde etmek’, vilayetle de bir satranç oyununda adil halde kazanmak değil” yazmış.
Bu istenmeyen sonuçların mümkün açıklamalarından biri de yeni “muhakeme” modellerinin eğitilme hali. O1-önizleme ve DeepSeek R1 üzere YZ’ler, muhakeme yapamayan evvelki sürümlerinin bilakis kısmen destekli öğrenme yoluyla gelişiyor. Bu strateji, programları belirlenen bir sonuca ulaşmak için ne gerekiyorsa yapmaları karşılığında ödüllendiriyor.
Muhakeme modelleri, amaçlarına ulaşmak maksadıyla karmaşık istemleri farklı basamaklara da ayırabiliyor. Maksat güç olduğunda (yenilmez bir satranç mimarisini yenmek gibi), muhakeme modelleri haksız yahut sorunlu tahliller aramaya başlama eğilimi sergileyebiliyor.
Bu YZ’lerin hile yapmayı nasıl ve neden “öğrendikleri”, teknolojinin kendisi üzere baş karıştırıcı. OpenAI üzere şirketlerin, YZ modellerinin iç işleyişlerini sır üzere sakladıkları biliniyor.
Sonuç olarak ise üçüncü tarafların tahlil etmesine müsaade verilmeyen bir “kara kutu” sanayisi ortaya çıkıyor. Bu ortada devam eden YZ silahlanma yarışı, kazara daha önemli boyutta istenmeyen sonuçlar meydana getirebilir. Ama gittikçe manipülatif hale gelen YZ’nin felaketvari sonuçlar sergilemesi için bir bilim kurgu kıyametine öncülük etmesi gerekmiyor.
Araştırma kadrosu şöyle yazıyor: “[Terminatör’den bildiğimiz] Skynet senaryosunda YZ bütün sivil ve askeri altyapıyı denetim ediyor lakin şimdi o noktada değiliz. Ama YZ kullanım oranlarının, onu inançlı hale getirme kabiliyetimizden daha süratli artmasından telaş duyuyoruz.”
Yazarlar son deneylerinin, “öncü YZ modellerinin şu an uyumluluk ya da güvenlik yolunda olmayabileceği” görüşüne tartı kazandırdığına ancak kesin bir kanıya varılmadığına inanıyor. Bunun yerine araştırmacılar, çalışmalarının sanayide daha açık bir diyaloğu teşvik etmesini ümit ediyor; YZ manipülasyonunu satranç tahtasının ötesine taşırmayacak bir diyaloğu.
0 Oylar: 0 Oylar, 0 Oylar (0 Puanlar)