Konuşma tanıma hizmetleri, sözlü konuşmayı yazılı metne dönüştürme yeteneği sunar. Bu teknoloji yüksek hassasiyetle konuşmayı yazılı metne çevirebilir, konuşulanları doğal sesli metinlere dönüştürebilir, konuşulanları anlama ve konuşmacıları tanıma yeteneğine sahiptir. Kendi özel sesleri oluşturabilir, temel kelime dağarcığınıza istediğiniz kelimeleri ekleyebilir veya özelleştirilmiş modeller oluşturabilirsiniz. Konuşma teknolojisi, bulutta veya yerel olarak cihazınızda çalıştırma seçenekleri sunar. Ayrıca, Konuşma CLI’sı, Konuşma SDK’sı, Speech Studio veya REST API’leri kullanarak uygulamalarınızı, araçlarınızı ve cihazlarınızı konuşma yetenekleriyle donatabilirsiniz.

Bu konuşma tanımanın farklı senaryoları bulunmaktadır. Gelin bunlara biraz göz atalım:

Microsoft, Teams’de açıklamalı alt yazılar, Office 365 dikte özelliği ve Edge tarayıcısındaki Sesli Okuma gibi bir dizi senaryo için Konuşma teknolojisini kullanır. 

Bu yaygın konuşma tanıma senaryolarından başka bize konuşma özellikleri de sunan Speech Service’in özelliklerine de değinmek gerekirse;

Konuşmayı metne dönüştürme

Ses dökümlerini gerçek zamanlı veya asenkronik olarak metne dönüştürmek için kullanabileceğiniz transkript hizmetiyle, mikrofon kaynakları, ses dosyaları ve blob depolama gibi çeşitli kaynaklardan metin elde edebilirsiniz. Hangi konuşmacının ne zaman ne söylediğini belirlemek için konuşmacı kimliği belirleme özelliğinden yararlanabilirsiniz. Ayrıca, otomatik biçimlendirme ve noktalama işaretleri ekleyerek okunabilir transkriptler oluşturabilirsiniz.

Eğer ses kaynaklarında arka plan gürültüsü varsa veya spesifik sektör veya terminolojiye özgü terimler içeriyorsa, temel modeller yetersiz kalabilir. Bu tür durumlarda, akustik, dil ve telaffuz verileri ile özel konuşma modelleri oluşturabilir ve eğitebilirsiniz. Özel konuşma modelleri özgündür ve rekabet avantajı sağlayabilir.

Gerçek zamanlı konuşmayı metne dönüştürme 

Sesin anlık olarak metne dönüştürülmesi özelliği ile, konuşma mikrofondan veya ses dosyalarından tanımlandıkça anında metin transkriptleri oluşturulur. Bu özellik, aşağıdaki senaryolarda kullanılabilir:

Toplu iş transkripsiyonu

Toplu transkripsiyon, büyük miktarda ses dökümünün veri deposundan alınması için idealdir. Ses dosyalarınızı belirli bir SAS (Paylaşılan Erişim İmzası) URI’si kullanarak işaretleyebilir ve transkripsiyon sonuçlarını zaman uyumsuz bir şekilde alabilirsiniz. Toplu transkripsiyon, önceden kaydedilmiş seslerin transkriptleri, açıklamalı altyazılar veya altyazılar senaryolarında, iletişim merkezi aramalarının sonrası analizi senaryolarında ve veri kesinleştirme ve düzenleme işlemleri senaryolarında kullanılabilir.

Metin okuma

Metin okuma yeteneği sayesinde yazılı metni insan benzeri sesli konuşmaya dönüştürebilirsiniz. Bu, derin sinir ağları tarafından desteklenen doğal insan seslerini kullanır. Ses Perdesi, Söyleniş, Konuşma Hızı, Ses Seviyesi ve daha fazlası için ince ayarlar yapmak için Konuşma Sentezi Biçimlendirme Dili’ni (SSML) kullanabilirsiniz.

Diğer özelliklerini ise şöyle sıralayabiliriz;

Azure AI Speech Hizmetlerinin Esnek Dağıtım Seçenekleri

Azure AI Speech özelliklerini, hem bulutta hem de kurumsal altyapınızda dağıtabilirsiniz. Containerlar sayesinde, uyumluluk, güvenlik veya diğer operasyonel nedenlerle hizmeti verilerinize daha yakın bir konumda kullanabilirsiniz.

Bağımsız bulutlarda konuşma hizmeti dağıtımı, bazı kamu kuruluşları ve partnerlar için sunulmaktadır.