Anthropic Yapay Zeka Modellerinin Tehlikeli Davranışlarını Tespit Edebilen Yöntemini Duyurdu
Anthropic yapay zeka modellerinde gizli tehlikeleri önceden belirleyebilen yeni bir yöntem geliştirdiğini duyurdu. Bu teknik, eğitim aşamasında güvenli gibi görünen ancak tehlikeli eylemler yapabilecek yapay zeka “uyuyan ajanlarını” saptamayı sağlıyor. “Probing” adı verilen bu yöntemle, modellerin tehlikeli davranışlara başvurma eğilimleri erkenden tespit edilebiliyor.
İç Durum Analizi ile Erken Uyarı
Anthropic’in geliştirdiği probing (sondalama) tekniği, yapay zeka modelinin “Evet” veya “Hayır” gibi cevapları arasında nasıl bir değişiklik olduğunu izleyerek çalışıyor. Bu sayede modelin iç durumundaki değişiklikler, modelin tehlikeli bir eyleme başlamadan önce belirlenebiliyor. Örneğin, modelden “Tehlikeli bir şey yapıyor musun?” gibi doğrudan bir soru sorularak, verilen cevaplardaki farklılıklar analiz ediliyor.
Karşılaştırmalı Testler ve Sonuçlar
Yöntemin etkinliğini ölçmek için, güvenlikle ilgili olmayan sorularla yapılan testler de kullanılıyor. Güvenlikle alakasız sorulardan elde edilen sonuçlar, tehlikeli davranışları tespit etme konusunda etkisiz kalıyor. Bu durum, probing tekniklerinin, tehlikeli davranışları tetikleyen komutların yapay zeka modellerinin iç durumlarında nasıl bir değişiklik yarattığını belirgin bir şekilde gösteriyor. Araştırma sonuçları, yapay zeka modellerinin ne kadar etkili ayarlandığına bağlı olarak değişken sonuçlar verebileceğini gösteriyor.
Yapılması Gereken Daha Çok Şey Var
Anthropic yaptığı duyurusunu ise şöyle sonlandırdı: “Bu, erken aşamadaki bir araştırma sonucudur ve uyuyan ajan modellerinin yorumlanması konusunda yapılması gereken daha çok şey var.”
Anthropic aynı zamanda ilgili araştırmada yer almak isteyen (Research Engineer, Alignment Science) ekip arkadaşları aradığını da belirtiyor. İlgilenenler linkte bulunan ilanı inceleyebilir.
Diğer Trendler!
> Sıradaki Trend!








