Seküler veri, yani satır ve sütunlarda düzenlenmiş bilgiler, modern makine öğrenimi sorunlarının temelini oluşturuyor. Sağlık kayıtlarından finans işlemlerine kadar birçok alanda karşımıza çıkıyor. Yıllardır karar ağacı tabanlı modeller, özellikle Random Forest, XGBoost ve CatBoost bu tür görevlerde standart haline gelmişti. Ancak bu durum şimdi değişiyor.
TabPFN Nedir ve Neden Farklı
Yeni bir yaklaşım olan TabPFN, seküler veri problemlerini çözmek için yepyeni bir yol sunuyor. Geleneksel modeller gibi her veri seti için sıfırdan eğitim yapmıyor. Bunun yerine, milyonlarca sentetik görev üzerinde önceden eğitilmiş bir model kullanıyor.
Bu, TabPFN'in genel bir öğrenme stratejisi geliştirmesini sağlıyor. Kendi veri setinizi verdiğinizde, model doğrudan tahmin yapıyor. Büyük dil modellerinin metin için yaptığı gibi, TabPFN de seküler veriye "bağlam içi öğrenme" (in-context learning) uyguluyor.
En güncel sürüm TabPFN-2.5, daha büyük ve karmaşık veri setlerini destekliyor. Performansını da ciddi ölçüde artırıyor. XGBoost ve CatBoost gibi ayarlanmış modelleri geride bırakıyor.
Hatta AutoGluon gibi güçlü topluluk sistemleriyle bile rekabet ediyor. Model ayrıca hiperparametre ayarı ve manuel çaba ihtiyacını da azaltıyor.
Gerçek dünya uygulamaları için TabPFN, tahminlerini daha küçük modellere dönüştürmek üzere bir damıtma (distillation) yaklaşımı kullanıyor. Bu sayede, doğruluğun büyük kısmını korurken çok daha hızlı çıkarım sağlıyor.
Geleneksel Modellerle Karşılaştırma
TabPFN'in performansını görmek için, onu Random Forest ve CatBoost gibi bilinen ağaç tabanlı modellerle karşılaştırdık. Deney için scikit-learn'den sentetik bir ikili sınıflandırma veri seti oluşturuldu. Bu veri seti 5.000 örnek ve 20 özellik içeriyor.
Özelliklerin 10'u bilgilendirici, 5'i ise gereksiz. Bu kurulum, gerçekçi bir seküler veri senaryosunu taklit ediyor. Veri seti, model performansını test etmek üzere eğitim ve test kümelerine bölündü.
Random Forest ve CatBoost Sonuçları
İlk olarak, 200 ağaç kullanan bir Random Forest sınıflandırıcısı test edildi. Model, %95,5 doğruluk oranı elde etti. Eğitim süresi 9,56 saniye sürerken, çıkarım hızı 0,0627 saniye olarak kaydedildi.
Ardından, seküler veriler için tasarlanmış bir gradyan güçlendirme modeli olan CatBoost'a geçildi. CatBoost, %96,7 doğrulukla Random Forest'ı geride bıraktı. Eğitim süresi 8,15 saniye, çıkarım süresi ise sadece 0,0119 saniye oldu.
CatBoost, bu sonuçlarla en son teknolojiye sahip ağaç tabanlı bir yöntem olarak güçlü bir performans gösteriyor. Özellikle düşük gecikme süresi gerektiren üretim senaryoları için oldukça uygun.
TabPFN'in Fark Yaratan Performansı
Son olarak TabPFN değerlendirildi. Model, veri setinde sıfırdan öğrenmek yerine, önceden eğitilmiş bir modeli kullanıyor. Eğitim verilerini koşullayarak doğrudan tahmin yapıyor.
TabPFN, %98,8 ile en yüksek doğruluğu elde etti. Bu oran, hem Random Forest'ı hem de CatBoost'u açık ara geride bırakıyor. Modelin "fit" (uyum) süresi ise sadece 0,47 saniye sürdü.
Bu, ağaç tabanlı modellere göre ciddi ölçüde daha hızlı. Çünkü TabPFN'de gerçek bir eğitim süreci yaşanmıyor. Ancak bu yaklaşımın bir bedeli var: çıkarım süresi 2,21 saniye oldu.
TabPFN'in Hızlı Çıkarım Çözümü
TabPFN, geleneksel modellerden daha yüksek doğruluk sunuyor. Özellikle "fit" süresiyle öne çıkıyor. Ancak çıkarım hızı, CatBoost'un 0,0119 saniyelik performansının gerisinde kalıyor. TabPFN'in damıtma (distillation) yaklaşımı, bu açığı kapatmayı hedefliyor. Model, tahminlerini daha küçük, daha hızlı neural network veya ağaç topluluklarına dönüştürerek, mobil cihazlarda gerçek zamanlı çıkarım için önemli bir çözüm sunuyor.