Yapay Zekayı 160 Kat Sıkıştıran Bilgi Damıtma Yöntemi

Karmaşık tahmin problemlerinde birden fazla modelin bir araya getirilmesi, varyansı azaltarak ve farklı örüntüleri yakalayarak doğruluğu artırdığı için sıklıkla tercih edilmektedir.

Karmaşık tahmin problemlerinde birden fazla modelin birleştirilmesi, hesaplama varyansını azaltarak veri doğruluğunu artırıyor. Ancak bu devasa topluluk modelleri, donanımsal gecikme kısıtlamaları ve operasyonel karmaşıklık nedeniyle üretim ortamlarında pratik kullanım senaryolarını kısıtlıyor. Bilgi Damıtma tekniği, topluluk zekasını otonom olarak tek bir dağıtılabilir Yapay Zeka Modeli içine sıkıştırarak büyük donanım gereksinimlerini atlıyor.

Bilgi Damıtma Topluluk Zekasını Nasıl Aktarıyor

Bilgi damıtma mimarisi, yüksek parametreli ve önceden eğitilmiş bir öğretmen modelin mantıksal davranışlarını daha küçük bir öğrenci modele aktardığı donanımsal bir model sıkıştırma prosedürü olarak çalışıyor. Öğrenci model, yalnızca gerçek etiketler üzerinde eğitilmek yerine, ana sunucudaki öğretmenin tahminlerini taklit etmek üzere kurgulanıyor. Bu altyapı, sistemin yalnızca nihai çıktıları değil, aynı zamanda olasılık dağılımlarında yer alan karmaşık kalıpları da otonom olarak yakalamasını sağlıyor.

Yeni yöntem, öğrenci modelin ağ karmaşıklığına ihtiyaç duymadan devasa sistemlerin performansına yaklaşmasına imkan tanıyor. Başlangıçta büyük topluluk modellerini tek ağlara sıkıştırmak için tasarlanan bu mimari, günümüzde doğal dil işleme ve bilgisayarlı görü gibi uç nokta donanımlarında standart hale geliyor.

Veri Kümelerinin Sentetik İşlenmesi

Veri aktarım süreci, ikili sınıflandırma görevi için özel bir sentetik veri kümesi oluşturulmasıyla başlıyor. Gerçek dünya verilerinin karmaşıklığını simüle etmek amacıyla 5.000 örnek ve 20 özellik içeren bir veri seti hazırlanıyor. Veri seti eğitim ve test gruplarına ayrılarak model performansının tamamen izole veriler üzerinde değerlendirilmesi sağlanıyor.

Ağ özellikleri, sinir ağlarının daha verimli eğitilmesine olanak tanıyan donanımsal bir StandardScaler kullanılarak normalleştiriliyor. Ardından tüm veriler, model eğitiminde gecikmesiz kullanılabilmesi için PyTorch tensörlerine dönüştürülüyor. Verileri mini partiler halinde işlemek üzere oluşturulan DataLoader arayüzü, stokastik gradyan inişini hızlandırarak sunucu yükünü hafifletiyor.

Model Mimarisi Ve Çıkarım Fonksiyonları

Sistemde öğretmen ve öğrenci görevleri için iki farklı sinir ağı mimarisi tanımlanıyor. Öğretmen model; birden fazla işlem katmanına, geniş boyutlara ve düzenleme için özel dropout yapılarına ev sahipliği yapıyor. Bu altyapı, modeli son derece isabetli hale getirirken çıkarım döngüsünde yüksek hesaplama maliyetleri yaratıyor.

Öğrenci model ise daha az donanımsal katman ve düşük parametre sayısıyla oldukça verimli bir ağ mimarisi kuruyor. Burada birincil hedef öğretmenin donanımsal gücüne ulaşmak değil, ağ damıtma yoluyla algoritmik karar mekanizmalarını kopyalamak oluyor. Öğrenci model, öğretmen topluluğunun öğrendiği zengin veri kalıplarını yakalayabilecek minimum işleme kapasitesini sistemde rezerve ediyor.

Eğitim döngüsü için sisteme iki yardımcı fonksiyon entegre ediliyor. train_one_epoch komutu, veriler üzerindeki tek geçişi yöneterek ağırlık güncellemelerini optimize ediyor. evaluate fonksiyonu ise sistemi test moduna geçirerek tahmin algoritmalarını çalıştırıyor ve nihai doğruluk oranını hesaplıyor.

Yumuşak Oylama İle Hedef Optimizasyonu

Sistem aktarımı için öncelikle bilgi kaynağı olarak görev yapacak öğretmen topluluğu sıfırdan eğitiliyor. Tek bir büyük model oluşturmak yerine, 12 farklı öğretmen model bağımsız ve rastgele başlatmalarla veri döngüsüne alınıyor. Algoritmik çeşitlilik, topluluk ağlarının hata payını donanımsal olarak sıfıra yaklaştırıyor.

Tüm öğretmen modeller eğitildikten sonra, sistem tahminleri basit bir çoğunluk oyu yerine çıktı logitlerinin ortalaması alınarak yumuşak oylama protokolüyle birleştiriliyor. Bu adım, bilgi damıtmanın kilit bileşeni olan yumuşak hedefleri oluşturarak ortalama tahminleri olasılık dağılımlarına dönüştürüyor.

Fonksiyon tüm logitleri ortaladıktan sonra olasılıkları dengelemek için özel bir sıcaklık ölçeklendirmesi uyguluyor. Sıcaklık değeri artırıldığında veri dağılımı yumuşayarak katı etiketlerin yakalayamadığı gizli ağ ilişkileri açığa çıkıyor. Bu yapılandırılmış hedefler, öğrenci modelin daha az işlemci gücüyle doğru sonuçlar vermesini sağlayan öğrenme sinyallerini iletiyor.

Damıtma Kaybı Ve Geri Kazanım Oranları

Öğrenci model, girişleri, katı etiketleri ve yumuşak hedefleri aynı anda besleyen entegre bir veri yükleyici üzerinden eğitiliyor. İşlemci çekirdekleri bu süreçte Damıtma kaybı (KL-divergence) ve Katı etiket kaybı (cross-entropy) olmak üzere iki farklı kayıp metriğini eş zamanlı hesaplıyor.

Donanımsal testlerin sonucunda öğrenci model, topluluğun doğruluk farkının %53.8'ini tam 160 kat daha yüksek bir sıkıştırma oranıyla geri kazanmayı başarıyor. Elde edilen değerler, devasa bir sunucu yerine küçük bir yerel donanımda çalışabilecek kompakt bir yapay zeka ağı inşa edildiğini kanıtlıyor.

Otonom Cihazlar İçin Yerel Çıkarım Çözümleri

Bilgi damıtma mimarisi, donanımsal kaynak kısıtlaması bulunan veya gerçek zamanlı çıkarım gerektiren uç nokta uygulamaları için doğrudan ve kalıcı bir altyapı sunuyor. Geliştiriciler bu tekniği PyTorch ortamlarında kullanarak bulut sunuculara ihtiyaç duyan devasa modelleri tekil mobil işlemcilerde çalışabilecek boyutlara indirgiyor. Bu mimari yaklaşım sayesinde mühendisler, internet bağlantısı gerektirmeyen ve sıfır gecikmeyle çalışan yerel yapay zeka sistemlerini endüstriyel cihazlara doğrudan entegre edebiliyor.

Kaynak: Orijinal Habere Git