DeepMind SAFE Adını verdiği Gerçekçilik Denetimi Yapan Bir Yapay Zeka Aracı Geliştirdi
DeepMind ve Stanford Üniversitesi’nden araştırmacılar, büyük dil modellerinin (LLM) doğruluğunu denetleyen, SAFE adını verdiği, yeni bir yapay zeka aracı geliştirdiğini duyurdu. Arama Destekli Gerçekçilik Değerlendiricisi (Search-Augmented Factuality Evaluator) SAFE, yapay zeka ürünlerinin ürettiği içeriklerin gerçekliğini test ederek, güvenilir bilgi akışı konusunda önemli bir adım atıyor. DeepMind, bu yenilikçi aracın, yapay zekaların kendi ürettikleri bilgileri kullanıcıya sunmadan önce doğrulamasına olanak tanıyarak, yanlış bilgilendirmenin önüne geçeceğini belirtiyor.
Yapay Zekanın Gerçekçilik Sınavı SAFE Nasıl Çalışıyor?
SAFE, yapay zeka tarafından üretilen metinleri analiz ederek her bir bilgiyi tek tek Google’da doğruluyor. Bu sayede, uzun metinlerde sıkça rastlanan gerçek dışı bilgilerin önüne geçilmesi hedefleniyor.
En iyi yapay zeka modelleri bile zaman zaman halüsinasyon görme eğilimi gösteriyor. Şimdiye dek, büyük dil modellerinin ürettiği yanıtların doğruluğunu ölçmek için somut bir yöntem bulunmuyordu. Geliştirilen bu yeni metot, yapay zekaların hangi durumlarda hatalı bilgi ürettiğini anlamak ve bu hataları minimuma indirgemek için yardımcı olabilir.
Gerçeklik Kontrolünde İnsanlardan Daha Üstün Performans Gösteriyor
Araştırma; SAFE’in insanların gerçeklik değerlendirmeleriyle büyük ölçüde (%72) aynı fikirde olduğunu gösteriyor. İnsanlarla fikir ayrılığına düştüğü durumlarda ise SAFE’in kararları, sonradan yapılan değerlendirmelerle kıyaslandığında %76 oranında doğru çıkıyor. Bu, SAFE’in, özellikle anlaşmazlık yaşanan konularda bile, yüksek bir doğruluk oranına sahip olduğunu ortaya koyuyor.
SAFE, maliyet konusunda da dikkat çekici bir avantaj sunuyor. İnsan denetçilerin yaptığı işleri yaparken, maliyeti 20 kat daha azaltıyor. Bu, bilgi doğrulama işlemlerinin çok daha ekonomik ve hızlı bir şekilde gerçekleştirilebileceği anlamına geliyor. SAFE GitHub’da açık kaynaklı olarak yayınlandı.
GPT-4-Turbo En Yüksek Doğruluk Puanına Sahip
DeepMind’ın geliştirdiği SAFE, Gemini, GPT, Claude ve PaLM-2 ailelerinden toplam 13 büyük dil modelini değerlendirdi. Bu testler sonucunda GPT-4-Turbo, uzun yanıtlar üretirken en yüksek gerçekçilik puanına sahip model olarak öne çıktı. Araştırma, büyük dil modellerinin, daha küçük modellere kıyasla daha doğru bilgiler ürettiğini ortaya koydu.

Yapay Zekada Doğruluk ve Güvenilirlik İçin Yeni Bir Dönem
DeepMind’ın SAFE’i kamu kullanımına sunması, yapay zeka modellerinin daha güvenilir bilgi üretmesi için önemli bir adım olarak değerlendiriliyor. Bu gelişme, yapay zeka teknolojisinin günlük hayatta daha güvenli bir şekilde kullanılabilmesi için büyük önem taşıyor.
Diğer Trendler!
> Sıradaki Trend!








