Elon Musk'ın yapay zeka şirketi xAI, ses teknolojileri alanında iddialı iki yeni API duyurdu. Şirket, mobil uygulamalarındaki Grok Voice, Tesla araçları ve Starlink müşteri desteği gibi platformlarda kullanılan altyapıyı şimdi geliştiricilere açıyor. Bu hamleyle xAI, piyasada ElevenLabs, Deepgram ve AssemblyAI gibi güçlü rakiplerin olduğu Konuşmadan Metne (Speech-to-Text) ve Metinden Konuşmaya (Text-to-Speech) API pazarına resmi olarak giriyor.
Grok Konuşmadan Metne API'si
Konuşmadan Metne teknolojisi, sesli içeriği yazılı metne dönüştürüyor. Geliştiriciler, toplantı kayıtlarını yazıya dökmek, sesli asistanlar oluşturmak veya çağrı merkezi analizleri yapmak için bu API'yi kullanabiliyor. Grok STT API'si, artık 25 dilde gerçek zamanlı ve toplu işleme modlarıyla genel kullanıma sunuluyor.
API, kelime bazında zaman damgaları, konuşmacı ayrımı (kimin ne dediğini ayırma) ve çok kanallı ses desteği gibi özellikler sunuyor. Ayrıca sayıları, tarihleri ve para birimlerini doğru şekilde dönüştüren akıllı Ters Metin Normalleştirmesi (Inverse Text Normalization) de mevcut. Toplam 12 farklı ses formatını kabul eden API'nin ücretlendirmesi ise toplu işleme için saatlik 0,10 dolar, gerçek zamanlı akış için saatlik 0,20 dolar olarak belirlendi.
Performans Karşılaştırmasında Grok
xAI araştırma ekibi, doğruluk konusunda güçlü iddialarda bulunuyor. Telefon görüşmelerindeki isimler, hesap numaraları, tarihler gibi varlık tanıma testlerinde Grok STT'nin hata oranı sadece %5. Bu oran, ElevenLabs'ın %12, Deepgram'ın %13,5 ve AssemblyAI'ın %21,3'lük oranlarına kıyasla ciddi bir fark yaratıyor.
Video ve podcast transkripsiyonunda ise Grok ile ElevenLabs %2,4 hata oranıyla başa baş gidiyor. Deepgram ve AssemblyAI ise sırasıyla %3,0 ve %3,2 ile biraz geride kalıyor. xAI ekibi, genel ses kıyaslamalarında %6,9'luk bir kelime hata oranı bildirdi.
Grok Metinden Konuşmaya API'si
Metinden Konuşmaya teknolojisi, yazılı metni doğal sesli konuşmaya çeviriyor. Bu API'ler sesli asistanlar, kitap okuma özellikleri, podcast üretimi veya interaktif sesli yanıt (IVR) sistemleri için kullanılıyor. Grok TTS API'si, hızlı ve doğal konuşma sentezi sunuyor.
API, 20 farklı dili destekliyor ve beş farklı ses seçeneği sunuyor: Ara, Eve, Leo, Rex ve Sal. Eve sesi varsayılan olarak geliyor. Geliştiriciler, konuşma etiketleri sayesinde ses tonu, vurgu ve duraklamalar üzerinde detaylı kontrol sağlayabiliyor. Grok TTS'nin fiyatı ise 1 milyon karakter başına 4,20 dolar olarak açıklandı.
Telefon Görüşmelerinde Rakipsiz Doğruluk İddiası
xAI'ın yeni API'leri, özellikle telefon görüşmesi varlık tanımada %5'lik hata oranıyla rakiplerini geride bırakıyor. Bu, tıbbi, hukuki ve finansal gibi kritik sektörlerde gerçek zamanlı uygulamalar için büyük bir avantaj sağlıyor. Şirket, bu performansla kurumsal sesli uygulama geliştirme pazarında önemli bir oyuncu olmayı hedefliyor.