Alibaba'nın Tongyi Laboratuvarı, büyük dil modellerinin görsel verilerle çalışırken karşılaştığı zorlukları aşmak amacıyla "VimRAG" adlı yeni bir çerçeve geliştirdi. Bu yenilikçi yaklaşım, özellikle görüntüler ve videolar gibi çok modlu içeriklerle zenginleştirilmiş bilgi geri çağırma (RAG) sistemlerinde önemli bir ilerlemeyi temsil ediyor.
Alibaba'dan Çok Modlu RAG İçin Yeni Çözüm: VimRAG
Geleneksel Çok Modlu RAG sistemleri, metin dışındaki görsel ve işitsel verilerle başa çıkmakta yetersiz kalır. Bu durum, görsel verilerin yoğun token yükü ve sorguya göre seyrek anlamsal içeriğinden kaynaklanır.
VimRAG, bu sorunları çözmek için özel olarak tasarlanmıştır ve karmaşık çok adımlı akıl yürütme süreçlerinde görsel bağlamları etkin bir şekilde yönetmek için bir hafıza grafiği kullanır. Bu çerçeve, büyük dil modellerinin dış bilgiyi anlama ve kullanma şeklini dönüştürmeyi hedefliyor.
Görsel Verilerde Mevcut RAG Sistemlerinin Sınırlamaları
Mevcut birçok RAG ajanı, "Düşünce-Eylem-Gözlem" döngüsü olarak bilinen ReAct prensibini takip eder. Bu yaklaşımda, ajanın tüm etkileşim geçmişi tek bir büyüyen bağlama eklenir.
Ancak bu durum, videolar veya görselce zengin belgelerle çalışırken hızla sürdürülemez hale gelir. Akıl yürütme adımları arttıkça, kritik gözlemlerin bilgi yoğunluğu sıfıra yaklaşır.
Bellek tabanlı sıkıştırma, geçmiş gözlemleri özetleyerek yoğunluğu sabit tutmaya çalışır. Ne var ki bu yöntem, ajanın daha önce sorguladığı şeyleri unutmasına ve çok adımlı senaryolarda tekrarlayan aramalara yol açan "Markov körlüğü" sorununu ortaya çıkarır.
Yapılan pilot çalışmalar, ReAct ve yinelemeli özetlemenin bu körlükten muzdarip olduğunu gösterdi. Buna karşılık, grafik tabanlı bellek kullanımı, gereksiz arama eylemlerini önemli ölçüde azalttı.
VimRAG'ın Üç Ana Bileşeni
VimRAG'ın mimarisi, görsel bağlamları etkili bir şekilde yönetmek için üç temel bileşene dayanır. İlki, dinamik yönlendirilmiş bir döngüsel olmayan grafiğe (DAG) dayalı Çok Modlu Hafıza Grafiği'dir.
Bu grafikteki her düğüm; ebeveyn düğüm indekslerini, alt sorguyu, kısa bir metinsel özeti ve görsel tokenlardan oluşan çok modlu bir epizodik bellek bankasını kodlar. Politika, her adımda keşfedici geri çağırma (ret), çok modlu algılama ve bellek doldurma (mem) veya terminal projeksiyon (ans) gibi eylemlerden birini seçer.
İkinci bileşen, Grafik Modülasyonlu Görsel Bellek Kodlaması olarak adlandırılır. Bu bileşen, token atamasını kısıtlı bir kaynak tahsisi problemi olarak ele alır ve her görsel öğe için içsel bir enerji hesaplar.
Hesaplanan enerji, semantik önceliği, yapısal alaka düzeyi için düğüm çıkış derecesini ve eski kanıtları iskonto etmek için zamansal bozulmayı birleştirir. Nihai enerji, ardıl düğümlerden gelen özyinelemeli takviyeyi de içererek, yüksek değerli akıl yürütmeyi destekleyen temel erken düğümleri korur.
Üçüncü bileşen ise Grafik Güdümlü Politika Optimizasyonu (GGPO)'dur. Bu optimizasyon, pozitif örnekler için kritik yolda olmayan çıkmaz düğümlere gradyan maskeleri uygulayarak gereksiz geri çağırmanın pozitif takviyesini engeller.
Negatif örnekler için ise, geri çağırma sonuçlarının ilgili bilgi içerdiği adımlar, negatif politika gradyan güncellemesinden çıkarılır. Bu yöntem, temel GSPO'ya göre daha hızlı yakınsama ve daha kararlı ödül eğrileri sağlar.
VimRAG'ın Değerlendirme Sonuçları ve Kıyaslamalar
VimRAG'ın performansı, dokuz farklı kıyaslama testi üzerinde kapsamlı bir şekilde değerlendirildi. Bu testler arasında HotpotQA, SQuAD, WebQA, SlideVQA, MMLongBench, LVBench, WikiHowQA ve SyntheticQA gibi popüler veri setleri bulunmaktadır.
Araştırma ekibi ayrıca, çapraz video anlama için mevcut değerlendirme standartlarının eksikliğini gidermek amacıyla HowTo100M'den oluşturulan "XVBench" adlı yeni bir kıyaslama seti geliştirdi. Bu yeni veri seti, özellikle video bazlı çok modlu akıl yürütme yeteneklerini ölçmek için tasarlandı.
Tüm dokuz veri seti, yaklaşık 200 bin adet iç içe geçmiş çok modlu öğeden oluşan tek bir birleşik veri kümesinde birleştirildi. Bu geniş ve çeşitli veri kümesi, VimRAG'ın gerçek dünya senaryolarındaki etkinliğini ve genellenebilirliğini doğrulamak için kullanıldı.
VimRAG ile Görsel Bilgi Geri Çağırmada Verimlilik Artışı
VimRAG, özellikle büyük miktardaki görsel ve video verileriyle çalışan yapay zeka modelleri için kritik bir adım sunuyor. Geleneksel yöntemlerin aksine, bu çerçeve gereksiz arama eylemlerini önemli ölçüde azaltırken, görsel bilgilerin daha doğru ve ince taneli bir şekilde kullanılmasını sağlıyor.
Sadece 2.7 bin token kullanarak %58.2 görüntü ve %43.7 video görevi doğruluğuna ulaşması, mevcut yöntemlere kıyasla daha az kaynakla daha yüksek performans elde edildiğini gösteriyor. Bu, özellikle mobil cihazlar gibi kısıtlı kaynaklara sahip platformlarda çok modlu yapay zeka uygulamalarının önünü açabilir.