Azure AI Servislerinden Speech Service Nedir?

Yazar: Selen Sütunç

6 Kasım 2023 6 Kasım 2023

Konuşma tanıma hizmetleri, sözlü konuşmayı yazılı metne dönüştürme yeteneği sunar. Bu teknoloji yüksek hassasiyetle konuşmayı yazılı metne çevirebilir, konuşulanları doğal sesli metinlere dönüştürebilir, konuşulanları anlama ve konuşmacıları tanıma yeteneğine sahiptir. Kendi özel sesleri oluşturabilir, temel kelime dağarcığınıza istediğiniz kelimeleri ekleyebilir veya özelleştirilmiş modeller oluşturabilirsiniz. Konuşma teknolojisi, bulutta veya yerel olarak cihazınızda çalıştırma seçenekleri sunar. Ayrıca, Konuşma CLI’sı, Konuşma SDK’sı, Speech Studio veya REST API’leri kullanarak uygulamalarınızı, araçlarınızı ve cihazlarınızı konuşma yetenekleriyle donatabilirsiniz.

Bu konuşma tanımanın farklı senaryoları bulunmaktadır. Gelin bunlara biraz göz atalım:

Açıklamalı alt yazılar, giriş sesinizle senkronize edebilme, küfür filtreleri uygulayabilme, kısmi sonuçlar elde edebilme, kişiselleştirmeleri uygulayabilme ve çok dilli konuşmalar için dilleri tanımlayabilme yeteneği sunar.
Ses İçeriği Oluşturma: Sohbet botları ve sesli asistanlarla etkileşimi daha doğal ve ilgi çekici hale getirme, dijital metinleri sesli kitaplara dönüştürme, araç içi gezinme sistemlerini geliştirme amacıyla sinirsel sesleri kullanabilirsiniz.
Çağrı Merkezi: Arama kayıtlarını gerçek zamanlı olarak sunma veya toplu aramaları işleme koyma, kişisel tanımlayıcı bilgileri yeniden işleme alma ve çağrı merkezi kullanım senaryolarınızı geliştirmenize yardımcı olacak içgörüleri çıkarma konusunda size destek olur.
Dil Öğrenme: Dil öğrenenlere telaffuz değerlendirme geri bildirimi sunma, uzaktan eğitim konuşmaları için gerçek zamanlı transkript desteği sağlama ve nöral seslerle sesli öğretim materyallerini okuma gibi işlevler sunar.
Sesli Asistanlar: Uygulamalarınız ve deneyimleriniz için doğal ve insan gibi konuşma arabirimleri oluşturma imkanı sunar. Sesli asistan özelliği, bir cihazla sesli asistan uygulaması arasında hızlı ve güvenilir bir etkileşim sunar.

Microsoft, Teams’de açıklamalı alt yazılar, Office 365 dikte özelliği ve Edge tarayıcısındaki Sesli Okuma gibi bir dizi senaryo için Konuşma teknolojisini kullanır.

Bu yaygın konuşma tanıma senaryolarından başka bize konuşma özellikleri de sunan Speech Service’in özelliklerine de değinmek gerekirse;

Konuşmayı metne dönüştürme

Ses dökümlerini gerçek zamanlı veya asenkronik olarak metne dönüştürmek için kullanabileceğiniz transkript hizmetiyle, mikrofon kaynakları, ses dosyaları ve blob depolama gibi çeşitli kaynaklardan metin elde edebilirsiniz. Hangi konuşmacının ne zaman ne söylediğini belirlemek için konuşmacı kimliği belirleme özelliğinden yararlanabilirsiniz. Ayrıca, otomatik biçimlendirme ve noktalama işaretleri ekleyerek okunabilir transkriptler oluşturabilirsiniz.

Eğer ses kaynaklarında arka plan gürültüsü varsa veya spesifik sektör veya terminolojiye özgü terimler içeriyorsa, temel modeller yetersiz kalabilir. Bu tür durumlarda, akustik, dil ve telaffuz verileri ile özel konuşma modelleri oluşturabilir ve eğitebilirsiniz. Özel konuşma modelleri özgündür ve rekabet avantajı sağlayabilir.

Gerçek zamanlı konuşmayı metne dönüştürme

Sesin anlık olarak metne dönüştürülmesi özelliği ile, konuşma mikrofondan veya ses dosyalarından tanımlandıkça anında metin transkriptleri oluşturulur. Bu özellik, aşağıdaki senaryolarda kullanılabilir:

Canlı toplantıların anlık transkriptleri, açıklamalı alt yazıları veya altyazıları
Hızlı not alma
Söyleniş değerlendirmesi
İletişim merkezi aracısı yardımı
Dikte
Sesli yardımcılar

Toplu iş transkripsiyonu

Toplu transkripsiyon, büyük miktarda ses dökümünün veri deposundan alınması için idealdir. Ses dosyalarınızı belirli bir SAS (Paylaşılan Erişim İmzası) URI’si kullanarak işaretleyebilir ve transkripsiyon sonuçlarını zaman uyumsuz bir şekilde alabilirsiniz. Toplu transkripsiyon, önceden kaydedilmiş seslerin transkriptleri, açıklamalı altyazılar veya altyazılar senaryolarında, iletişim merkezi aramalarının sonrası analizi senaryolarında ve veri kesinleştirme ve düzenleme işlemleri senaryolarında kullanılabilir.

Metin okuma

Metin okuma yeteneği sayesinde yazılı metni insan benzeri sesli konuşmaya dönüştürebilirsiniz. Bu, derin sinir ağları tarafından desteklenen doğal insan seslerini kullanır. Ses Perdesi, Söyleniş, Konuşma Hızı, Ses Seviyesi ve daha fazlası için ince ayarlar yapmak için Konuşma Sentezi Biçimlendirme Dili’ni (SSML) kullanabilirsiniz.

Önceden Oluşturulmuş Nöral Ses: Hemen kullanılabilecek doğal sesler. Ses Galerisi’nde bulunan önceden oluşturulmuş nöral ses örneklerini kontrol ederek, iş gereksinimlerinize uygun sesi seçebilirsiniz.
Özel Nöral Ses: Markanız veya ürününüz için özgün ve tanınabilir bir ses oluşturmanın yanı sıra kutudan çıkan önceden oluşturulmuş nöral seslerin ötesine geçebilirsiniz. Özel nöral sesler benzersizdir ve rekabet avantajı sağlayabilir. Özel nöral ses örneklerini buradan kontrol edebilirsiniz.

Diğer özelliklerini ise şöyle sıralayabiliriz;

Konuşmayı konuşmaya veya konuşmayı metne çeviren konuşma çevirisi özelliği.
Sesli olarak konuşulan dilleri tanımlamayı sağlayan dil tanımlama özelliği.
Konuşmacıları spesifik ses özelliklerine göre tanımlamayı sağlayan konuşmacı tanıma özelliği.
Konuşmacılara konuşmanın doğruluğu ve akıcılığı konusunda geri bildirim sağlayan söyleniş değerlendirmesi özelliği.
Metne dökülmüş konuşmaları analiz ederek kullanıcının neleri hedeflediğini çıkarmayı ve bu bilgileri sesli komutları işlemek için kullanmayı amaçlayan amaç tanıma özelliği.

Azure AI Speech Hizmetlerinin Esnek Dağıtım Seçenekleri

Azure AI Speech özelliklerini, hem bulutta hem de kurumsal altyapınızda dağıtabilirsiniz. Containerlar sayesinde, uyumluluk, güvenlik veya diğer operasyonel nedenlerle hizmeti verilerinize daha yakın bir konumda kullanabilirsiniz.

Bağımsız bulutlarda konuşma hizmeti dağıtımı, bazı kamu kuruluşları ve partnerlar için sunulmaktadır.

Selen Sütunç Hakkında

Bulut Çözümleri Uzman Yardımcısı ● Data Market Bilgi Hizmetleri A.Ş.

Selen Sütunç’nin tüm içerikleri

Bulut Çözümleri

Veri Merkezi

Dijital Dönüşüm

Güvenlik

Sanallaştırma

Mobil ve Son Kullanıcı

Hizmetlerimiz

Bize Ulaşın

Mobil Yaka

ideal IDM

Uppermind AI

istech