Sektör lideri yapay zeka kapsamına ilişkin en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin
OpenAI Şu anda beta aşamasında olan Gerçek Zamanlı API’sini bugün güncelledi. Bu güncelleme, platforma konuşmadan konuşmaya uygulamaları için yeni sesler ekler ve istemleri önbelleğe almayla ilgili maliyetleri azaltır.
Realtime API’nin beta kullanıcıları artık uygulamalarını oluşturmak için kullanabilecekleri beş yeni sese sahip olacak. OpenAI, X’teki bir gönderide yeni seslerden üçünü (Ash, Verse ve İngiliz tınısı taşıyan Ballad) sergiledi.
İki Gerçek Zamanlı API güncellemesi:
– Artık çok daha etkileyici ve yönlendirilebilir beş yeni sesle konuşmadan konuşmaya deneyimler oluşturabilirsiniz. ???
– Hızlı önbelleğe alma özelliğini kullanarak fiyatı düşürüyoruz. Önbelleğe alınmış metin girişleri %50 indirimlidir ve önbelleğe alınmış ses girişleri indirimlidir… pic.twitter.com/jLzZDBrR7l
— OpenAI Geliştiricileri (@OpenAIDevs) 30 Ekim 2024
Şirket kendi açıklamasında şunları söyledi: API belgeleri yerel konuşma-konuşma özelliğinin “atla[s] orta düzey bir metin formatı, düşük gecikme ve incelikli çıktı anlamına gelir”, ayrıca seslerin yönlendirilmesi daha kolaydır ve önceki seslere göre daha anlamlıdır.
Ancak OpenAI, henüz beta aşamasında olduğundan API için istemci tarafı kimlik doğrulaması sunamayacağı konusunda uyarıyor. Ayrıca gerçek zamanlı sesin işlenmesinde sorunlar olabileceği de belirtildi.
Şirket, “Ağ koşulları gerçek zamanlı sesi büyük ölçüde etkiliyor ve ağ koşulları öngörülemez olduğunda sesin bir istemciden sunucuya güvenilir bir şekilde iletilmesi zorlayıcı oluyor” dedi.
OpenAI’nin yapay zeka destekli konuşma ve seslerle ilgili geçmişi tartışmalıdır. Mart ayında rakip bir ses klonlama platformu olan Voice Engine’i piyasaya sürdü. Onbir Laboratuvarancak erişimi yalnızca birkaç araştırmacıyla sınırladı. Mayıs ayında şirket, GPT-4o ve Ses Modunun tanıtımını yaptıktan sonra, aktris Scarlett Johansson’ın kendi sesine benzerliği hakkında konuşmasının ardından seslerden biri olan Sky’ı kullanmaya ara verdi.
Şirket, Eylül ayında ABD’de ödeme yapan aboneler (ChatGPT Plus, Enterprise, Groups ve Edu kullananlar) için ChatGPT Gelişmiş Ses Modunu kullanıma sundu.
Konuşmadan konuşmaya yapay zeka perfect olarak işletmelerin ses kullanarak daha gerçek zamanlı yanıtlar oluşturmasına olanak tanır. Bir müşterinin bir şirketin müşteri hizmetleri platformunu aradığını varsayalım. Bu durumda, konuşmadan konuşmaya yeteneği kişinin sesini alabilir, ne sorduğunu anlayabilir ve AI tarafından oluşturulan sesi daha düşük gecikmeyle kullanarak yanıt verebilir. Konuşmadan konuşmaya aynı zamanda kullanıcıların, bir kullanıcının kendi satırlarını söylediği seslendirmeler oluşturmasına da olanak tanır, ancak ses çıkışı kendilerine ait değildir. Bunu sunan platformlardan biri Çoğaltma ve tabii ki ElevenLabs.
OpenAI, bu ayki Geliştirme Günü sırasında Gerçek Zamanlı API’yi yayınladı. API, sesli asistanların oluşturulmasını hızlandırmayı amaçlıyor.
Maliyetleri düşürmek
Ancak konuşmadan konuşmaya özelliklerini kullanmak pahalı olabilir.
Realtime API piyasaya sürüldüğünde fiyatlandırma yapısı, ses girişi başına dakika başına 0,06 ABD doları ve ses çıkışı başına 0,24 ABD dolarıydı ki bu hiç de ucuz değil. Ancak şirket, hızlı önbelleklemeyle gerçek zamanlı API fiyatlarını düşürmeyi planlıyor.
Önbelleğe alınan metin girişleri %50 oranında düşecek ve önbelleğe alınan ses girişleri %80 oranında indirime tabi tutulacak.
OpenAI ayrıca Geliştirme Günü sırasında İstem Önbelleğe Alma’yı da duyurdu ve sık sık talep edilen bağlamları ve istemleri modelin belleğinde tutacak. Bu, yanıt oluşturmak için oluşturması gereken jeton sayısını azaltacaktır. Girdi fiyatlarının düşürülmesi, daha fazla ilgilenen geliştiricilerin API’ye bağlanmasını teşvik edebilir.
OpenAI, İstemi Önbelleğe Alma özelliğini kullanıma sunan tek şirket değil. Antropik Ağustos ayında Claude 3.5 Sonnet için hızlı önbelleğe alma işlemini başlattı.
Kaynak