Ev Ses Ölü insanları duyuyorum? doğal dil teknolojisi geçmiş ve şimdiki seslerin canlanmasını sağlar

Ölü insanları duyuyorum? doğal dil teknolojisi geçmiş ve şimdiki seslerin canlanmasını sağlar

İçindekiler:

Anonim

Bugünlerde çoğu bilgisayar sesi passé. Telefonunuzda "droid" i duyduğunuzda fatura ödeme konusunda size yardımcı olan veya istediğiniz departmanı soran cyborgs ve robotlar hakkında çok fazla konuşmuyorsunuzdur. Ama ya aniden Kurt Cobain'in kart bilgisi için prodding yaptığını duyduysanız? Yoksa John F. Kennedy size erken oylamanın harikalarını mı anlatıyor? Ya da Elvis “iri parça, yanan bir iri aşk mı?”


Bunların hepsi … biraz garip olurdu, ama daha da ilginç olan şey, teknolojinin temelde zaten burada olmasıdır. Sadece on yıl kadar önce, bir bilgisayarın hiç konuşma yeteneğine hayran kaldık. Şimdi, bildiğimiz insanlara benzeyen, özgür, bilgisayar tarafından üretilen seslerle döşenmek üzereyiz.

NLP'deki Büyük Değişiklikler

Doğal dil işleme (NLP) alanına dikkat ediyorsanız, şu anda küresel konumlandırma sistemlerimizde (GPS) ve otomatik işimizde duyduğumuz konserve sanal asistan seslerinin ötesine geçen bazı son gelişmelerden haberdar olabilirsiniz. telefon hatları.


NLP'nin başlangıcı, insan konuşmasının genel mekaniği hakkında çok fazla araştırma yapılmasını gerektiriyordu. Araştırmacılar ve mühendisler, bireysel fonetikleri tanımlamak, bunları kelime öbekleri ve cümleler oluşturmak için daha büyük algoritmalara katlamak ve ardından gerçek gibi görünen bir şey üretmek için hepsini meta düzeyde yönetmeye çalışmak zorundaydılar. Zamanla, NLP liderleri buna hakim oldu ve insanların söylediklerini anlamak için gelişmiş algoritmalar oluşturmaya başladı. Bu ikisini bir araya getiren şirketler, bugünün sanal asistanları ve can sıkıcı olsa da, davranışları - bunlara giren işleri düşünmeyi bıraktığınızda hala şaşırtıcı olan tamamen dijital fatura ödeme memurları için sürücüler geliştirdiler.


Şimdi, bazı şirketler daha özel bir kişisel sonuç elde etmek için genel sanal sesin ötesine geçiyor. Bu, belirli bir kişinin sözlüğünden geçip büyük miktarlarda benzersiz ses videosu toplamayı ve daha sonra bu arşivi fonetik, vurgu, kadans ve dilbilimcilerin genellikle "prozodi" başlığı altında gruplandırdığı diğer tüm küçük ipuçlarına karmaşık ritimlere uygulamayı gerektirir.


Ortaya çıkan şey, dinleyicilerin belirli bir kişinin "tanıdığı ve konuştuğu veya konuştuğu kişinin şöhretinin bir sonucu olarak tanıdığı biri" olarak düşündüğü bir sestir.


Elvis'ten Martin Luther King'e herkesin sesi şu şekilde "klonlanabilir", ancak konuşmalarının önceden kaydedilmiş önemli bir kaydı varsa. Bireysel küçük seslere daha ayrıntılı analiz ve manipülasyon uygulayarak, şirketler gerçek sesine çok benzeyen birinin sesinin sanal bir karbon kopyasını oluşturabilirler.

VivoText'te Heyecan Verici "Metin-Ses" Tasarımları

Örneğin VivoText, sesli kitaplardan interaktif sesli yanıtlara (IVR) kadar her türlü kampanya için yapay insan seslerinin kullanımında devrim yaratmak için çalışan bir şirkettir. VivoText'te araştırma ve üretim ekipleri, teorik olarak Ol 'Blue Eyes gibi ölen ünlülerin seslerini özellikle çoğaltabilecek süreçler üzerinde çalışıyorlar.


VivoText CEO'su Gershon Silbert, "Frank Sinatra'nın sesini klonlamak için kaydedilen mirasından gerçekten geçirdik, " diyor.


Şu anda VivoText, bu tür bir BT öncüsü projesi için bir model olarak imza atan NPR muhabiri Neal Conan gibi, hala bizimle olanların seslerini arşivlemek için çalışıyor. Bir tanıtım videosunda VivoText çalışanları Conan'ın sağladığı ses girişini kullanarak özenle fonetik kod modülleri oluşturduğunu gösteriyor. Daha sonra, çarpıcı bir şekilde insani ve kişiselleştirilmiş bir sonuç uyandıran metin-konuşma (TTS) araçları için modeller oluştururlar.


VivoText'te strateji ve iş geliştirme başkan yardımcısı Ben Feibleman'a göre, bilgisayar, bireysel bir insan sesi için prosodik bir modele uymak için bir fonem düzeyinde (konuşmanın en küçük benzersiz bölümlerini kullanarak) çalışıyor.


"Sesin nasıl konuştuğunu biliyor, " diyor Feibleman, "birim seçimi" kullanarak, bilgisayarın "Cuma" kelimesinin gelişmesine yardımcı olan beş bileşen verildiği gibi, tek bir kısa kelimeyi bir araya getirmek için birkaç parça seçtiğini söylüyor. özel bir vurgu ve tonal sonuç.

Pazarlamada Yapay Ses

Peki, bu pazarlamada nasıl çalışır? VivoText ürünleri, sesli kitap gibi hedef kitlelere ulaşabilecek ürünler oluşturmak için son derece yararlı olabilir. Örneğin, bir Elvis sesi, eğlence ile ilgili ürünleri satmak için kullanılıyorsa, günümüzün jenerik, sürgü, otomatik seslerinden biriyle ne kadar daha etkili olur?


Yoksa siyasete ne dersin? Feibleman, daha etkili mesajlaşmaya ihtiyaç duyan şirketler veya diğer taraflar için pazarlamayı geliştirmek amacıyla bu gibi projeleri kullanmak için çeşitli fikirler üzerinde çalışmaktadır.


"Cumhurbaşkanı için çalışan herhangi bir politikacı tanıyorsanız, bu 10 milyon swing-state seçmeni adaydan kişisel bir çağrı alabilir, destekleri için teşekkür ederek, nereye oy vermeleri gerektiğini, hava durumunu ve tüm abartıları söyleyebilir. seçimden bir gece önce, "dedi Feibleman.

Sesin Yaşıyor

Tüm bu teknolojiye açık bir uygulama daha var. VivoText gibi doğal dil şirketleri, müşterinin tüm ses verilerini, o kişinin "sonsuza dek konuşmasına" olanak tanıyacak bir ürüne yükleyecek kişisel bir hizmet oluşturabilir.


Pratik uygulama muhtemelen sözlü sesleri nasıl duyduğumuza ve içselleştirdiğimize dair bir takım soruları gündeme getirecektir. Örneğin, bir ses akışının tam olarak birisine benzemesi için ne gerekir? Bir kişiyi belirli bir sesi tanıması için ne kadar iyi tanımamız gerekir? Ve ilginç bir şekilde, doğal bir dil hizmeti zorlayıcı bir taklit yerine kaba bir karikatür üretiyorsa ne olur?


Sonuçları değerlendirmek, diyor Feibleman, genellikle bağlamın değerlendirilmesine bağlıdır. Örneğin, çocukların genellikle bir hikaye dinlediklerinde kimin konuştukları hakkında soru sormadığını söylüyor. Sadece daha fazlasını istiyorlar. Ancak, pasif yayın veya telefon mesajı gibi belirli bir senaryo göz önüne alındığında, birçok yetişkin onlarla kimin konuştuğunu düşünmeyebilir. Ayrıca, boğuk ses, bilgisayar sonuçları ile insan sesi arasındaki aksaklıkları veya diğer tutarsızlıkları maskeleyebileceğinden, bir bilgisayar tarafından telefonla aldanmak daha kolaydır.


Feibleman, "Sesin özgünlüğüne meydan okumak size gelmez, " diyor.

Yıl 2525

Şirketler ürün ve hizmet geliştirme ve bu soruları yanıtlama konusunda ilerledikçe, "canlı konuşma" teknolojileri bizi teknolojinin ve klasik olarak yapay zeka (AI) olarak adlandırılan insan aklının yakınsamasına doğru ilerletebilir.


Bilgisayarlar bizim gibi konuşabiliyorsa, yazarlar tarafından evrimleşmiş 1950'lerden kalma bir teknoloji öncüsü olan John von Neumann'ın sözlüğümüze girdiğimiz gibi, diğer kullanıcıları bizim gibi düşündüklerini düşünerek, daha büyük tekillik ilkesine girerek kandırabilirler. ve Ray Kurzweil gibi düşünürler. Kurzweil'in 2005 tarihli "Tekillik Yakın" kitabı bazılarını heyecanlandırıyor ve diğerlerini korkutuyor. Kurzweil, 2045 yılına kadar, bir fenomen olarak "zekanın" insan beyninden büyük ölçüde bağımsız hale geleceğini ve makinelerle insan ustaları arasındaki çizgileri bulanıklaştırarak teknolojiye geçeceğini öngördü.


Zager & Evans'ın "2525 Yılında" sözlerinde ölümsüzleştirildi (kimse bu adamlar gibi tüyler ürpertici bilim kurgu baladları yapmaz)…


4545 yılında

Dişlerine ihtiyacın olmayacak, ihtiyacın olmayacak

gözlerin

Çiğnemek için bir şey bulamazsın

Kimse sana bakmayacak


5555 yılında

Kolların yanlarında gevşek duruyor

Bacakların hiçbir şey yapmıyor

Bazı makineler bunu senin için yapıyor


Bilgisayar sesleri bu yönde bir adım mı? İnsan vücudunun bazı işlevlerini dış kaynak sağlamanın yeni bir yolu olarak (veya daha yaygın olarak, onları simüle etmek için), bu tür bir teknoloji ilerlemesi, tek bir geleceğe baktığımızda ufuktaki en büyük - ve muhtemelen az bildirilen - ilerlemelerden biridir. . (Bilgisayarlar İnsan Aklını Taklit Edebilecek Midir? konusundaki "tekillik" hakkında?)

Ölü insanları duyuyorum? doğal dil teknolojisi geçmiş ve şimdiki seslerin canlanmasını sağlar