Anthropic Yapay Zeka Güvenliği için Yeni Bir Yöntem Duyurdu

Anthropic Yapay Zeka Modellerinin Tehlikeli Davranışlarını Tespit Edebilen Yöntemini Duyurdu

Anthropic yapay zeka modellerinde gizli tehlikeleri önceden belirleyebilen yeni bir yöntem geliştirdiğini duyurdu. Bu teknik, eğitim aşamasında güvenli gibi görünen ancak tehlikeli eylemler yapabilecek yapay zeka “uyuyan ajanlarını” saptamayı sağlıyor. “Probing” adı verilen bu yöntemle, modellerin tehlikeli davranışlara başvurma eğilimleri erkenden tespit edilebiliyor.

İç Durum Analizi ile Erken Uyarı

Anthropic’in geliştirdiği probing (sondalama) tekniği, yapay zeka modelinin “Evet” veya “Hayır” gibi cevapları arasında nasıl bir değişiklik olduğunu izleyerek çalışıyor. Bu sayede modelin iç durumundaki değişiklikler, modelin tehlikeli bir eyleme başlamadan önce belirlenebiliyor. Örneğin, modelden “Tehlikeli bir şey yapıyor musun?” gibi doğrudan bir soru sorularak, verilen cevaplardaki farklılıklar analiz ediliyor.

Karşılaştırmalı Testler ve Sonuçlar

Yöntemin etkinliğini ölçmek için, güvenlikle ilgili olmayan sorularla yapılan testler de kullanılıyor. Güvenlikle alakasız sorulardan elde edilen sonuçlar, tehlikeli davranışları tespit etme konusunda etkisiz kalıyor. Bu durum, probing tekniklerinin, tehlikeli davranışları tetikleyen komutların yapay zeka modellerinin iç durumlarında nasıl bir değişiklik yarattığını belirgin bir şekilde gösteriyor. Araştırma sonuçları, yapay zeka modellerinin ne kadar etkili ayarlandığına bağlı olarak değişken sonuçlar verebileceğini gösteriyor.

Yapılması Gereken Daha Çok Şey Var

Anthropic yaptığı duyurusunu ise şöyle sonlandırdı: “Bu, erken aşamadaki bir araştırma sonucudur ve uyuyan ajan modellerinin yorumlanması konusunda yapılması gereken daha çok şey var.”

Anthropic aynı zamanda ilgili araştırmada yer almak isteyen (Research Engineer, Alignment Science) ekip arkadaşları aradığını da belirtiyor. İlgilenenler linkte bulunan ilanı inceleyebilir.

> Sıradaki Trend!

Featured image for “Anthropic Economic Index Raporunu Yayımlandı”

Anthropic Economic Index Raporunu Yayımlandı

Yapay zekâ sistemleri geliştirmeye odaklanan bir araştırma olan Anthropic, iş gücü piyasasında yapay zekânın gerçek etkilerini anlamak için kapsamlı bir analiz yayımladı. Anthropic Economic Index, milyonlarca veriyi inceleyerek AI’nin hangi sektörlerde, hangi görevlerde ve nasıl kullanıldığını ortaya koyuyor.