MiMo-V2.5-Pro Rakip Modellere Göre Yüzde 40 İle 60 Daha Az Token Tüketiyor

Xiaomi MiMo ekibi, yapay zeka dünyasında iddialı iki yeni modelini duyurdu: MiMo-V2.5-Pro ve MiMo-V2.5. Bu modeller, özellikle ajan tabanlı yapay zeka yetenekleriyle öne çıkıyor. Yayımlanan kıyaslama testleri ve gerçek dünya demoları, açık kaynaklı ajan tabanlı yapay zekanın, sektördeki en güçlü kapalı kaynak modellere hızla yaklaştığını gösteriyor. Her iki model de API üzerinden hemen kullanıma açıldı ve oldukça rekabetçi fiyat etiketleriyle geliyor.

Ajan Tabanlı Yapay Zeka Ne Anlama Geliyor

Çoğu büyük dil modeli (LLM) kıyaslaması, modellerin tek bir, kendi içinde tamamlanmış soruyu yanıtlama becerisini test eder. Ajan tabanlı kıyaslamalar ise çok daha zorlu bir alanı ölçüyor. Bir modelin, birden fazla adımı olan bir hedefi, araçları (web araması, kod yürütme, dosya işlemleri, API çağrıları) kullanarak ve orijinal amacını kaybetmeden otonom bir şekilde tamamlayıp tamamlayamadığına bakılıyor. Bunu şöyle düşünebilirsiniz: Bir modelin "bir lexer nasıl yazılır?" sorusunu yanıtlaması ile gerçek bir derleyiciyi baştan sona yazıp, testleri çalıştırıp, hataları tespit edip düzeltebilmesi arasındaki farktan bahsediyoruz. Xiaomi MiMo ekibi, tam da bu ikinci senaryoyu başarıyla sergiliyor.

MiMo-V2.5-Pro: Yeni Amiral Gemisi

MiMo-V2.5-Pro, Xiaomi'nin bugüne kadarki en yetenekli modeli. Önceki sürümü MiMo-V2-Pro'ya göre genel ajan yetenekleri, karmaşık yazılım mühendisliği ve uzun vadeli görevlerde ciddi gelişmeler sunuyor. Kilit kıyaslama testlerinde, kapalı kaynaklı zirve modellerle başa baş gidiyor. Örneğin, SWE-bench Pro'da 57.2, Claw-Eval'da 63.8 ve τ3-Bench'te 72.9 puan alarak Claude Opus 4.6 ve GPT-5.4 gibi modellerle aynı seviyede yer alıyor.

V2.5-Pro, binden fazla araç çağrısı gerektiren karmaşık, uzun vadeli görevleri sürdürebiliyor. Ajan senaryolarında talimatlara uyma konusunda büyük iyileşmeler gösteriyor ve çok uzun bağlamlarda bile güçlü bir tutarlılık sağlıyor. Xiaomi MiMo ekibinin "harness farkındalığı" adını verdiği bir özelliği var: Model, çalışma ortamının sunduğu imkanları tam olarak kullanıyor, belleğini yönetiyor ve bağlamını nihai hedefe ulaşmak için şekillendiriyor. Yani sadece talimatları mekanik olarak uygulamakla kalmıyor, çok uzun görevlerde yolda kalmak için kendi çalışma ortamını aktif olarak optimize ediyor.

Gerçek Dünya Uygulamaları ve Verimlilik

Xiaomi'nin yayımladığı üç gerçek dünya demosu, "uzun vadeli ajan yeteneğinin" pratikte ne anlama geldiğini net bir şekilde gösteriyor.

SysY Derleyici: Rust dilinde sıfırdan bir SysY derleyici geliştirmesi istendi. Model, bu görevi 4.3 saatte ve 672 araç çağrısıyla tamamladı. Peking Üniversitesi'nde bir bilgisayar mühendisliği öğrencisinin haftalarca süren bu projesinden tam puan (233/233) aldı. Özellikle dikkat çekici olan, modelin deneme yanılma yerine derleyiciyi katman katman inşa etmesi: önce tüm yapıyı oluşturdu, sonra Koopa IR'yi mükemmelleştirdi, ardından RISC-V arka ucunu ve performans optimizasyonlarını ekledi. İlk derlemede bile testlerin %59'unu geçmesi, mimarinin doğru tasarlandığını gösteriyor.
Masaüstü Video Düzenleyici: Sadece birkaç basit komutla, MiMo-V2.5-Pro çalışan bir masaüstü uygulaması geliştirdi. Çok kanallı zaman çizelgesi, klip kesme, çapraz geçişler, ses miksajı ve dışa aktarma yetenekleri olan bu uygulama, 8.192 satır koddan oluşuyor ve 11.5 saatlik otonom çalışmayla, 1.868 araç çağrısıyla ortaya çıktı.
Analog EDA-FVF-LDO Tasarımı: Bu, en teknik demo. Model, TSMC 180nm CMOS sürecinde sıfırdan eksiksiz bir FVF-LDO (Flipped-Voltage-Follower düşük düşüşlü regülatör) tasarladı ve optimize etti. Bir ngspice simülasyon döngüsüne bağlanan model, yaklaşık bir saatlik kapalı döngü iterasyonuyla, her hedef metriği karşılayan bir tasarım üretti.

Bu seviyede bir zeka, maliyet etkinliği olmadan pek işe yaramaz. V2.5-Pro, ClawEval testinde %64 Pass^3 oranına ulaşırken, her bir görev için yaklaşık 70 bin token kullanıyor. Bu, Claude Opus 4.6, Gemini 3.1 Pro ve GPT-5.4'e göre %40-60 daha az token tüketimi anlamına geliyor. Üretim seviyesinde ajan tabanlı sistemler geliştiren mühendisler için bu, önemli bir maliyet avantajı sağlıyor.

MiMo-V2.5: Çok Modlu ve Daha Ekonomik

V2.5-Pro en zorlu, uzun vadeli ajan görevlerini hedeflerken, MiMo-V2.5 ajan yeteneği ve çok modlu anlayışta büyük bir adım atıyor. Yerel görsel ve işitsel anlama yetenekleriyle MiMo-V2.5, farklı modaliteler arasında sorunsuz bir şekilde akıl yürütüyor. MiMo-V2-Pro'yu ajan performansında geride bırakıyor ve 1 milyon tokene kadar bağlamı destekliyor. Model, algı ve eylemin sıfırdan birleştirilmesiyle tasarlandı. Bu, önemli bir mimari fark yaratıyor; zira önceki çok modlu modeller genellikle görsel yeteneği metin tabanlı bir iskeletin üzerine ekliyordu.

Kodlama tarafında da MiMo-V2.5'in değeri açık: MiMo Coding Bench testinde, günlük kodlama görevlerinde güçlü sonuçlar veriyor ve MiMo-V2.5-Pro ile aynı seviyede performans sunarken, yarı maliyetle çalışıyor. V2.5-Pro'nun aşırı uzun vadeli derinliğine ihtiyaç duymayan ekipler için bu, cazip bir seçenek sunuyor. Çok modlu kıyaslamalarda ise Claw-Eval genel alt kümesinde 62.3 puan alıyor. Claw-Eval Çok Modlu alt kümesinde 23.8'e ulaşarak Claude Sonnet 4.6 ile eşleşiyor ve Gemini 3 Pro ile hemen hemen aynı seviyede video anlama yeteneği gösteriyor (87.7'ye karşı 88.4). Görüntü anlama yetenekleri de Gemini 3 Pro'ya yaklaşıyor.

Maliyet Avantajı ve Geliştirici Dostu Yapı

Fiyatlandırma oldukça basit: MiMo-V2.5, 1x (1 token = 1 kredi) oranında çalışırken, MiMo-V2.5-Pro 2x (1 token = 2 kredi) oranında çalışıyor. Daha önce uzun bağlamlı ajan iş yükleri için yaygın bir maliyet sorunu olan 1 milyon tokenlık bağlam penceresi için artık bir çarpan ücreti alınmıyor. Bu da geliştiriciler için maliyetleri ciddi ölçüde azaltıyor. Her iki model de Claude Code, OpenCode ve Kilo gibi popüler ajan tabanlı çatılarla uyumlu. Bu sayede yapay zeka geliştiricilerine, sınır seviyesinde ajan tabanlı yapay zekaya doğrudan erişim imkanı sunuluyor.

Kaynak: Orijinal Habere Git