OpenAI, Dakika Başına 0,015 Dolara Kadar Düşen API Fiyatlarıyla Sesli Zeka çağını Başlatıyor

0:00

Artık GPT-4o’ya konuşmayı öğretebilirsiniz.

OpenAI, bu sabahın erken saatlerinde yeni ürünlerinin lansmanını canlı yayında duyurdu ve bu sefer yeni yayınlanan içeriklerin tamamı ses modellerinden oluşuyordu.

Mevcut çözümleri doğruluk ve güvenilirlik açısından geride bırakarak yeni bir SOTA seviyesine ulaştıkları bildiriliyor; özellikle aksanların, gürültülü ortamların ve değişen konuşma hızlarının olduğu karmaşık senaryolarda. Bu iyileştirmeler, konuşma/metin transkripsiyon uygulamalarının güvenilirliğini artırıyor ve yeni model özellikle müşteri çağrı merkezleri ve toplantı kayıtlarının transkripsiyonu gibi kullanım senaryoları için oldukça uygun.

Geliştiriciler, yeni API sayesinde ilk kez metinden sese modellerine belirli bir şekilde konuşma talimatı verebilecek, örneğin yapay zekanın “şefkatli bir müşteri hizmetleri temsilcisi gibi konuşmasını” sağlayabilecek, böylece ses temsilcileri için yeni bir özelleştirme boyutu açılacak ve çeşitli özel uygulamalar mümkün hale gelecek.

OpenAI ayrıca büyük ses modellerinin yeteneklerini doğrudan test edebileceğiniz bir web sitesi de açtı: http://www.openai.fm/

OpenAI, dakika başına 0,015 dolara kadar düşen API fiyatlarıyla sesli zeka çağını başlatıyor

OpenAI, 2022 yılında ilk ses modelini piyasaya sürdü ve bu modellerin zekasını, doğruluğunu ve güvenilirliğini artırmak için çalışıyor. Yeni ses modeli ve API ile geliştiriciler daha doğru ve güçlü konuşma-metne dönüştürme sistemleri ve etkileyici ve kişiselleştirilmiş metin-konuşma sesleri oluşturabilecekler.

Özellikle yeni gpt-4o-transcribe ve gpt-4o-mini-transcribe modelleri, orijinal Whisper modeline kıyasla kelime hata oranını, dil tanımlamasını ve doğruluğu iyileştiriyor.

gpt-4o-transcribe, çok sayıda yerleşik kıyaslamada mevcut Whisper modelinden daha iyi kelime hata oranı (WER) performansı göstererek, konuşma-metne teknolojisinde önemli ilerlemeler kaydetti. Bu ilerlemeler, takviyeli öğrenmedeki yeniliklerin ve çeşitli, yüksek kaliteli ses veri kümeleri kullanılarak yapılan kapsamlı orta aşama eğitiminin sonucudur.

Bu yeni konuşmadan metne dönüştürme modelleri, konuşmanın nüanslarını daha iyi yakalıyor, yanlış tanımlamaları azaltıyor ve özellikle aksanların, gürültülü ortamların ve farklı konuşma hızlarının olduğu zorlu senaryolarda transkripsiyon güvenilirliğini artırıyor.

Birkaç model için kelime hata oranları (daha düşük daha iyidir).

FLEURS’ta OpenAI’nin modeli daha düşük WER ve güçlü çok dilli performans elde ediyor. WER ne kadar düşükse o kadar iyidir ve hata oranı da daha azdır.

OpenAI ayrıca daha iyi kontrol edilebilirliğe sahip yeni bir gpt-4o-mini-tts modeli yayınladı. Üstelik geliştiriciler ilk kez modellere yalnızca ne söyleyeceklerini değil, aynı zamanda nasıl söyleyeceklerini de öğretebiliyorlar; böylece çok çeşitli kullanım durumları için daha özelleştirilmiş bir deneyim sağlanabiliyor. Bu model metinden sese API’sinde mevcuttur. Ancak şu anda bu metinden sese dönüştürme modelleri, elle önceden ayarlanmış seslerle sınırlı ve OpenAI tarafından izleniyor.

Daha dün, OpenAI tarafından piyasaya sürülen “en pahalı büyük model API’si” o1-pro API’si, milyon token başına 600 dolar ücret talep etmesi nedeniyle yapay zeka camiası tarafından yoğun bir şekilde eleştirildi. OpenAI’nin bugün başlattığı üç ses API’sinin fiyatları sektör ortalama seviyesini korudu: gpt-4o-mini-tts’nin bir milyon tokeninin metin giriş fiyatı , ses çıkış fiyatı 0,60 ve ses çıkış fiyatı 12,00’dır; gpt-4o-trancrib’in metin giriş fiyatı , ses giriş fiyatı 2,50, ses giriş fiyatı 10,00 ve ses çıkış fiyatı ; gpt−4o−mini−transcribe’ın metin giriş fiyatı 1,25, ses giriş fiyatı , ses çıkış fiyatı 5,00 ve ses çıkış fiyatı 3,00’dır.

Bu nedenle bugünkü açıklama halk nezdinde olumlu karşılandı.

OpenAI’nin yeni ses modeli, GPT‑4o ve GPT‑4o-mini mimarilerine dayanıyor ve model performansının optimize edilmesi için kritik öneme sahip olan özel ses merkezli veri kümeleri üzerinde kapsamlı bir şekilde önceden eğitilmiş durumda. Bu hedef odaklı yaklaşım, konuşma nüanslarının daha derinlemesine anlaşılmasını sağlar ve sesle ilgili görevlerde üstün performans elde edilmesini sağlar.

Model eğitimi sırasında OpenAI, bilgiyi en büyük ses modellerinden daha küçük ve daha verimli modellere aktarmak için damıtma tekniğini geliştirdi. OpenAI’nin gelişmiş kendi kendine oynama yöntemlerini kullanan rafine veri seti, gerçekçi konuşma dinamiklerini etkili bir şekilde yakalar ve gerçek kullanıcı-asistan etkileşimlerini kopyalar; bu da küçük modellerin mükemmel konuşma kalitesi ve duyarlılığı sağlamasına yardımcı olur.

OpenAI’nin konuşmadan metne modeli, transkripsiyon doğruluğunu en üst düzeye taşımak için çok sayıda takviyeli öğrenmeyi bir araya getiriyor. Bu yaklaşımın doğruluğu önemli ölçüde artırdığı ve halüsinasyonları azalttığı, böylece konuşmadan metne dönüştürme çözümlerini karmaşık konuşma tanıma senaryolarında oldukça rekabetçi hale getirdiği belirtiliyor.

Bu gelişmeler, konuşma uygulamalarının performansını artırmak için yenilikçi yaklaşımları pratik iyileştirmelerle birleştirerek ses modelleme alanında ilerlemeleri temsil ediyor.

Bu yeni ses modelleri artık tüm geliştiricilerin kullanımına sunuldu: platform.openai.com/docs/guides…

Zaten metin tabanlı modeller kullanarak konuşma deneyimleri oluşturan geliştiriciler için, OpenAI konuşmadan metne ve metinden konuşmaya modellerini eklemek, sesle etkinleştirilen bir aracı oluşturmanın en kolay yoludur. OpenAI, bu geliştirme sürecini basitleştirmek için Agents SDK ile bir entegrasyon yayınladı. Düşük gecikmeli konuşma-konuşma deneyimleri oluşturmak isteyen geliştiriciler için OpenAI, Realtime API’deki konuşma-konuşma modellerini kullanmayı öneriyor.

OpenAI gelecekte ses modellerinin zekasını ve doğruluğunu geliştirmeye devam etmeyi ve geliştiricilerin özel sesler kullanarak daha kişiselleştirilmiş deneyimler oluşturmalarına olanak tanıyan yollar keşfetmeyi planlıyor. Video da dahil olmak üzere daha fazla modaliteye yönelik yetenekler de geliştirilme aşamasındadır.

Referanslar:

openai.com/index/intro…

[Saitama] Sıcak hatırlatma:

1. Bu sitede yayınlanan makaleler ve ekler çalışma ve araştırma ile sınırlı olup, ticari veya yasadışı amaçlarla kullanılamaz veya sonuçlarından lütfen kullanıcı sorumlu olsun!

2. Kaynaklar ağdan alınmıştır, kaynakların bütünlüğünü garanti etmez, yalnızca öğrenme ve araştırma içindir, herhangi bir ihlal varsa, silmek için lütfen müşteri hizmetleriyle iletişime geçin！

3. Bizi beğendiyseniz, VIP satın almaya hoş geldiniz, daha iyi hizmet alacaksınız!

İletişim

Şikayetler Tavsiyeler VIP Satın Alın Vip Özel

{{userData.name}}Sertifikalı

OpenAI, DeepSeek’i yasaklamayı teklif ediyor ve Çin AI’nın bastırılması çağrısında bulunuyor

CMU Profesörü GPT-o1’in Lisans Matematik Sınavında Mükemmel Puan Aldığını Söyledi

6G’yi yeniden düşünmek

İster beğenin ister beğenmeyin, her şey politikadır.

Google Gemini 2.0 Flash modeli güçlü resim filigranı kaldırma işlevine sahip

Google Gemma 3’ü yayınladı — bilmeniz gerekenler

Google Gemini 2.0 Flash yerel görüntü oluşturma işlevini sunuyor

Open-LLM-VTuber: Otakular için iyi haber! Açık kaynaklı AI Wife çevrimdışı sürümü,

AI Kungfu Video Oluşturucu

Makale kapaklarını hızla oluşturmak için MiniCover’ı kullanın

AI Kungfu Video Oluşturucu

Open-Sora 2.0 artık açık kaynaklı!

Trae’nin çıktı , Kullanımı gerçekten kolay mı?

İnternet erişimi olmadan kullanılabilen yerel deepseek tabanlı kişisel bir bilgi tabanı oluşturun

Eclipse, GitHub Copilot’u resmen başlattı!

OpenAI, dakika başına 0,015 dolara kadar düşen API fiyatlarıyla sesli zeka çağını başlatıyor

[Saitama] Sıcak hatırlatma:

o1/o3'ten sonra eğitimden sorumlu kişi kendi işini kurmak için ayrıldı

OpenAI'den Gece Yarısı Baskını: Üç Yeni Ses Modeli Aniden Duyuruldu!

Google Gemini 2.0 Flash modeli güçlü resim filigranı kaldırma işlevine sahip

Open-LLM-VTuber: Otakular için iyi haber! Açık kaynaklı AI Wife çevrimdışı sürümü,

Google Gemma 3’ü yayınladı — bilmeniz gerekenler

Grok 3 Derin Arama ile Karar Alma Verimliliğini Nasıl Artırabilirsiniz

Çocukluk Anıları

İnternet erişimi olmadan kullanılabilen yerel deepseek tabanlı kişisel bir bilgi tabanı oluşturun

Promorsyon