OpenAI, dakika başına 0,015 dolara kadar düşen API fiyatlarıyla sesli zeka çağını başlatıyor

0:00

Artık GPT-4o’ya konuşmayı öğretebilirsiniz.

OpenAI, bu sabahın erken saatlerinde yeni ürünlerinin lansmanını canlı yayında duyurdu ve bu sefer yeni yayınlanan içeriklerin tamamı ses modellerinden oluşuyordu.

Mevcut çözümleri doğruluk ve güvenilirlik açısından geride bırakarak yeni bir SOTA seviyesine ulaştıkları bildiriliyor; özellikle aksanların, gürültülü ortamların ve değişen konuşma hızlarının olduğu karmaşık senaryolarda. Bu iyileştirmeler, konuşma/metin transkripsiyon uygulamalarının güvenilirliğini artırıyor ve yeni model özellikle müşteri çağrı merkezleri ve toplantı kayıtlarının transkripsiyonu gibi kullanım senaryoları için oldukça uygun.

Geliştiriciler, yeni API sayesinde ilk kez metinden sese modellerine belirli bir şekilde konuşma talimatı verebilecek, örneğin yapay zekanın “şefkatli bir müşteri hizmetleri temsilcisi gibi konuşmasını” sağlayabilecek, böylece ses temsilcileri için yeni bir özelleştirme boyutu açılacak ve çeşitli özel uygulamalar mümkün hale gelecek.

OpenAI ayrıca büyük ses modellerinin yeteneklerini doğrudan test edebileceğiniz bir web sitesi de açtı: http://www.openai.fm/

OpenAI, dakika başına 0,015 dolara kadar düşen API fiyatlarıyla sesli zeka çağını başlatıyor

OpenAI, 2022 yılında ilk ses modelini piyasaya sürdü ve bu modellerin zekasını, doğruluğunu ve güvenilirliğini artırmak için çalışıyor. Yeni ses modeli ve API ile geliştiriciler daha doğru ve güçlü konuşma-metne dönüştürme sistemleri ve etkileyici ve kişiselleştirilmiş metin-konuşma sesleri oluşturabilecekler.

Özellikle yeni  gpt-4o-transcribe  ve  gpt-4o-mini-transcribe  modelleri, orijinal Whisper modeline kıyasla kelime hata oranını, dil tanımlamasını ve doğruluğu iyileştiriyor.

gpt-4o-transcribe, çok sayıda yerleşik kıyaslamada mevcut Whisper modelinden daha iyi kelime hata oranı (WER) performansı göstererek, konuşma-metne teknolojisinde önemli ilerlemeler kaydetti. Bu ilerlemeler, takviyeli öğrenmedeki yeniliklerin ve çeşitli, yüksek kaliteli ses veri kümeleri kullanılarak yapılan kapsamlı orta aşama eğitiminin sonucudur.

Bu yeni konuşmadan metne dönüştürme modelleri, konuşmanın nüanslarını daha iyi yakalıyor, yanlış tanımlamaları azaltıyor ve özellikle aksanların, gürültülü ortamların ve farklı konuşma hızlarının olduğu zorlu senaryolarda transkripsiyon güvenilirliğini artırıyor.

OpenAI, dakika başına 0,015 dolara kadar düşen API fiyatlarıyla sesli zeka çağını başlatıyor

Birkaç model için kelime hata oranları (daha düşük daha iyidir).

OpenAI, dakika başına 0,015 dolara kadar düşen API fiyatlarıyla sesli zeka çağını başlatıyor

FLEURS’ta OpenAI’nin modeli daha düşük WER ve güçlü çok dilli performans elde ediyor. WER ne kadar düşükse o kadar iyidir ve hata oranı da daha azdır.

OpenAI ayrıca daha iyi kontrol edilebilirliğe sahip yeni bir  gpt-4o-mini-tts  modeli yayınladı. Üstelik geliştiriciler ilk kez modellere yalnızca ne söyleyeceklerini değil, aynı zamanda nasıl söyleyeceklerini de öğretebiliyorlar; böylece çok çeşitli kullanım durumları için daha özelleştirilmiş bir deneyim sağlanabiliyor. Bu model metinden sese API’sinde mevcuttur. Ancak şu anda bu metinden sese dönüştürme modelleri, elle önceden ayarlanmış seslerle sınırlı ve OpenAI tarafından izleniyor.

Daha dün, OpenAI tarafından piyasaya sürülen “en pahalı büyük model API’si” o1-pro API’si,  milyon token başına 600 dolar ücret talep etmesi nedeniyle yapay zeka camiası tarafından yoğun bir şekilde eleştirildi. OpenAI’nin bugün başlattığı üç ses API’sinin fiyatları sektör ortalama seviyesini korudu: gpt-4o-mini-tts’nin bir milyon tokeninin metin giriş fiyatı , ses çıkış fiyatı 0,60 ve ses çıkış fiyatı 12,00’dır; gpt-4o-trancrib’in metin giriş fiyatı , ses giriş fiyatı 2,50, ses giriş fiyatı 10,00 ve ses çıkış fiyatı ; gpt−4o−mini−transcribe’ın metin giriş fiyatı 1,25, ses giriş fiyatı , ses çıkış fiyatı 5,00 ve ses çıkış fiyatı 3,00’dır.

Bu nedenle bugünkü açıklama halk nezdinde olumlu karşılandı.

OpenAI, dakika başına 0,015 dolara kadar düşen API fiyatlarıyla sesli zeka çağını başlatıyor

OpenAI’nin yeni ses modeli, GPT‑4o ve GPT‑4o-mini mimarilerine dayanıyor ve model performansının optimize edilmesi için kritik öneme sahip olan özel ses merkezli veri kümeleri üzerinde kapsamlı bir şekilde önceden eğitilmiş durumda. Bu hedef odaklı yaklaşım, konuşma nüanslarının daha derinlemesine anlaşılmasını sağlar ve sesle ilgili görevlerde üstün performans elde edilmesini sağlar.

Model eğitimi sırasında OpenAI, bilgiyi en büyük ses modellerinden daha küçük ve daha verimli modellere aktarmak için damıtma tekniğini geliştirdi. OpenAI’nin gelişmiş kendi kendine oynama yöntemlerini kullanan rafine veri seti, gerçekçi konuşma dinamiklerini etkili bir şekilde yakalar ve gerçek kullanıcı-asistan etkileşimlerini kopyalar; bu da küçük modellerin mükemmel konuşma kalitesi ve duyarlılığı sağlamasına yardımcı olur.

OpenAI’nin konuşmadan metne modeli, transkripsiyon doğruluğunu en üst düzeye taşımak için çok sayıda takviyeli öğrenmeyi bir araya getiriyor. Bu yaklaşımın doğruluğu önemli ölçüde artırdığı ve halüsinasyonları azalttığı, böylece konuşmadan metne dönüştürme çözümlerini karmaşık konuşma tanıma senaryolarında oldukça rekabetçi hale getirdiği belirtiliyor.

Bu gelişmeler, konuşma uygulamalarının performansını artırmak için yenilikçi yaklaşımları pratik iyileştirmelerle birleştirerek ses modelleme alanında ilerlemeleri temsil ediyor.

Bu yeni ses modelleri artık tüm geliştiricilerin kullanımına sunuldu: platform.openai.com/docs/guides…

OpenAI, dakika başına 0,015 dolara kadar düşen API fiyatlarıyla sesli zeka çağını başlatıyor

Zaten metin tabanlı modeller kullanarak konuşma deneyimleri oluşturan geliştiriciler için, OpenAI konuşmadan metne ve metinden konuşmaya modellerini eklemek, sesle etkinleştirilen bir aracı oluşturmanın en kolay yoludur. OpenAI, bu geliştirme sürecini basitleştirmek için Agents SDK ile bir entegrasyon yayınladı. Düşük gecikmeli konuşma-konuşma deneyimleri oluşturmak isteyen geliştiriciler için OpenAI, Realtime API’deki konuşma-konuşma modellerini kullanmayı öneriyor.

OpenAI gelecekte ses modellerinin zekasını ve doğruluğunu geliştirmeye devam etmeyi ve geliştiricilerin özel sesler kullanarak daha kişiselleştirilmiş deneyimler oluşturmalarına olanak tanıyan yollar keşfetmeyi planlıyor. Video da dahil olmak üzere daha fazla modaliteye yönelik yetenekler de geliştirilme aşamasındadır.

Referanslar:

openai.com/index/intro…

OpenAi

o1/o3'ten sonra eğitimden sorumlu kişi kendi işini kurmak için ayrıldı

2025-3-18 12:50:01

OpenAi

OpenAI'den Gece Yarısı Baskını: Üç Yeni Ses Modeli Aniden Duyuruldu!

2025-4-2 16:54:35

0 yanıt AMakale Yazarı MÜyeler
    Henüz bir tartışma yok, ne düşündüğünüzü bize bildirin
Kişisel Merkez
Sepet
Kuponlar
Bugünün Girişi
Yeni özel mesaj Özel mesaj listesi
aramak