S:
Konuşma metni ve sohbet botları arasındaki fark nedir?
A:Konuşma-metin teknolojileri ve sohbet botları arasındaki sayısız önemli fark, chatbot ve voicebot projelerinin hızlı evriminde incelenen şeyin bir parçasıdır.
Konuşma-metin teknolojisi, sözlü konuşmayı dijital sayfadaki metne dönüştüren teknolojidir. Bu onun tam işlevi, ancak tasarımı basit olmayan bir işlev değil. Sözlü konuşmayı metne dönüştürmek için, teknoloji kelimeleri ve cümleleri ayrı fonemlere ayırmalı ve doğru ve konuşmacının söylediklerini temsil eden metin oluşturmak için karmaşık algoritmalara göre onlarla çalışmalıdır.
Chatbot'lar ise bir insanla iletişim kurma hedefine ulaşan teknolojilerdir. İki tür sohbet botu vardır: metin sohbet botları ve teleskoplar. Metin sohbet botları çok daha uzun süredir, çünkü teleskopların kullandığı konuşma metni öğesine ihtiyaç duymuyorlar.
Konuşma-metin teknolojileri ve sohbet botları arasındaki temel fark kapsamdır. Belirtildiği gibi, konuşmadan metne teknolojinin tek yapması gereken sözlü konuşmayı yazmaktır. Öte yandan chatbot, hangi form için yapılırsa konuşmalı, anlamalı ve Turing testini geçmeye çalışan yanıtlar sağlamalıdır - bir teknolojinin bir insanı olduğunu düşünmeye kandırıp kandırmayacağı testi. başka biriyle konuşmak.
Bunu göz önünde bulundurarak, chatbot'ları oluşturmak voicebots'tan çok daha kolaydır. Chatbot insanın metnini alır ve bir metin yanıtı sağlar. Göreceli olarak basit chatbotlar bile 1980'lerin sonlarından ve 1990'ların başından beri insanlar için ilginç ve eğlenceli sonuçlar verebilmiştir.
Sesli mesaj, sözlü konuşmayı kabul etmeli, metne dönüştürmeli, doğruluğunu kontrol etmeli, bir yanıt üretmeli ve bu yanıtı makine dilinden sesli konuşmaya dönüştürmelidir. Oldukça önemli olan bu çok sayıda görev, ses çubuğunun çok fazla bilgi işlem gücü ve çok fazla tasarım gerektirdiği anlamına gelir.
Siri, Cortana ve Alexa gibi projeler, ses çubuğu teknolojilerinin öncülüğünün bir kısmını gösterir. Ayrıca bu teknolojinin hala emekleme döneminde olduğunu göstermektedir. Alexa ve diğer teknolojiler insan konuşmasına sözlü olarak yanıt verebilse de, genel olarak sözel insan konuşmasıyla ilişkilendirdiğimiz anlamda son derece yetenekli değillerdir. Başka bir deyişle, bu teknolojilerin sağlayabileceği yanıtlarda biraz kısıtlama vardır. Günümüzün kişisel asistanlarının nesnelere, örneğin bir e-postayı transkripsiyon yapmak veya birisinin ellerini kullanmadan bir makale yazmasına yardımcı olmak amacıyla, metne gerçekten konuşma üretme konusunda sınırlı bir yetenek bile vardır. Piyasadaki belirli konuşma-metin programlarının bazıları bunu muhtemelen kaynakların tahsisi nedeniyle Siri veya Cortana'dan daha iyi yapıyor. Ancak, kısa bir süre sonra voicebot ilerlemesinin başlayacağına dair işaretler var - Amazon'un bu tür teknolojileri oluşturmak için bir stüdyo ortamına izin veren Lex platformu.
Konuyla ilgili zekice ve öğretici bir makalede Tobias Goebel, bu teknolojiler arasındaki farktan bahsediyor ve metne konuşmanın yaptığı “yazıya dönüştürme” sürecini, sohbet botlarının yapması gereken anlama işiyle karşılaştırıyor.
Goebel, “Konuşma tanıma ihtiyacını ortadan kaldırmak bir sohbet botu için işleri kolaylaştırırken, işleyen botlar inşa etmenin ana zorluğu doğal dil anlayışında yatmaktadır” diyor.
Goebel ayrıca sektördeki mevcut oyuncuların çoğunu da tanımlar:
Konuşma tanıma pazar lideri, doksanlı yıllardan beri var olan bir bilgisayarda dikte etmek için Dragon NaturallySpeaking gibi tanınmış sistemlerin arkasında olan Nuance, aynı zamanda Siri: Apple bulutunun yaptığı konuşma tanıma / transkripsiyon görevi Perde arkasındaki nüans teknolojisi. Diğerleri LumenVox, Verbio veya Etkileşimler'dir, ancak konuşma tanıma artık Amazon, Google, Microsoft ve IBM gibi API'ler aracılığıyla bir bulut hizmeti olarak sunulmaktadır.
Chatbot'lar geliştikçe, anlayışlarının bazı yörüngelerde artmaya devam edeceği varsayılmaktadır - ve ayrıca daha fazla bot teknolojisinin metin arayüzlerinden sözlü arayüzlere geçeceği ve ek miktarda hesaplama gücü gerektireceği varsayılmaktadır.