Antropic yapay zeka modellerinde gizli tehlikeleri önceden belirleyebilen yeni bir yöntem geliştirdiğini duyurdu. Bu teknik, eğitim aşamasında güvenli gibi görünen ancak tehlikeli eylemler yapabilecek yapay zeka “uyuyan ajanlarını” saptamayı sağlıyor.
2 dakikalık okuma