Čujem mrtve ljude? Tehnologija prirodnih jezika čini prošlost i sadašnje glasove oživljavanjem

Video: Rare audio of indigenous languages saved by invention 100 years later - Science Nation

Sadržaj

Velike promjene u NLP-u
Uzbudljive kreacije "na glas" na Vivo-u
Umjetni glas u marketingu
Vaš Glas živi dalje
Godine 2525

Oduzeti:

Zaboravite konzervirane glasove; reprodukcija stvarnih novi je cilj za obradu prirodnog jezika.

Ovih je dana većina računalnih glasova prolazna. Vjerojatno se niste previše zaokupljeni cyborgovima i robotima kad čujete "droida" na telefonu koji vam pomaže u plaćanju računa ili vas pita koji odjel želite. Ali što ako iznenada čujete kako vas Kurt Cobain dobavlja za podatke o kartici? Ili vam John F. Kennedy govori o čudima prijevremenog glasovanja? Ili Elvis dobiva vaše ime i adresu prije nego što se obrušio na "trup, komad burne ljubavi?"

Sve bi to bilo ... pomalo čudno, ali ono što je još fascinantnije jest da je tehnologija u osnovi već ovdje. Prije samo desetljeće ili više, zadivila nas je sposobnost računala da uopće razgovaraju. Sad ćemo se ophoditi slobodnim glasom, računalno generiranim glasovima koji zvuče poput ljudi koje poznajemo.

Velike promjene u NLP-u

Ako obraćate pažnju na područje obrade prirodnog jezika (NLP), možda ste čuli za neke nedavne pomake koji nadilaze vrste glasova o virtualnom pomoćniku konzerviranog glasa koji sada čujemo u našim globalnim sustavima za pozicioniranje (GPS) i automatiziranom poslovanju. telefonske linije.

Za početak NLP-a bilo je potrebno čitavo mnoštvo istraživanja opće mehanike ljudskog govora. Istraživači i inženjeri morali su identificirati pojedinačnu fonetiku, složiti ih u veće algoritme za generiranje fraza i rečenica, a zatim pokušati sve to upravljati na meta-razini kako bi stvorili nešto što zvuči stvarno. S vremenom su čelnici NLP-a savladali to i započeli s izradom naprednih algoritama kako bi razumjeli što ljudi govore. Sastavljajući ovo dvoje, tvrtke su osmislile upravljačke programe za današnje virtualne pomoćnike i potpuno digitalne službenice za naplatu računa, čiji su maniri - iako dosadni - još uvijek zadivljujući kad prestanete razmišljati o poslu koji je u njih ušao.

Sada neke tvrtke nadilaze generički virtualni glas kako bi sastavile specifičniji personalizirani rezultat. To zahtijeva prolazak kroz leksikon određene osobe i prikupljanje velikih količina jedinstvenog glasovnog videa, zatim primjenu ove arhive na složene ritmove za fonetiku, naglašavanje, kadence i sve ostale sitne znakove koje lingvisti često grupiraju pod širokim transparentom "prosodije".

Ono što izlazi je glas koji slušatelji smatraju „posjedovanjem“ određene osobe - ili nekoga koga poznaju i s kojim su razgovarali, ili nekoga čiji glas prepoznaju kao rezultat slave osoba.

Od Elvisa do Martina Luthera Kinga, nečiji glas sada se može "klonirati" na ovaj način - pod uslovom da postoji dovoljno unaprijed snimljen njihov govor. Primjenjujući još detaljniju analizu i manipulaciju na pojedinačne male zvukove, tvrtke su u mogućnosti napraviti virtualnu kopiju nečijeg glasa koja zvuči slično kao prava stvar.

Uzbudljive kreacije "na glas" na Vivo-u

Na primjer, Vivo je jedna tvrtka koja radi na revolucionarnom korištenju umjetnih ljudskih glasova za sve vrste kampanja, od audioknjiga do interaktivnog govornog odgovora (IVR). Na Vivu, istraživački i produkcijski timovi rade na procesima koji bi, teoretski, mogli konkretno kopirati glasove preminulih slavnih osoba, poput samog Ol Blue Blue Eyesa.

"Da bismo klonirali glas Franka Sinatre, zapravo bismo prošli njegovu snimljenu ostavštinu", kaže direktor Viva Gershon Silbert, govoreći o tome kako ova vrsta tehnologije može raditi.

Trenutačno Vivo radi na arhiviranju glasova onih koji su još uvijek s nama, poput dopisnika NPR-a Neala Conana, koji se prijavio kao model za ovakav projekt IT pionira. Promotivni video prikazuje radnike Vivoa koji mukotrpno stvaraju fonetske module modula koristeći predviđeni glasovni unos iz Conana. Tada stvaraju modele za govorne alate (TTS) alate koji evociraju dramatično ljudski i personificirani rezultat.

Prema Ben Feiblemanu, potpredsjedniku za strategiju i razvoj poslovanja Vivo-a, računalo djeluje na fonemskoj razini (koristeći najmanje jedinstvene dijelove govora) kako bi se prilagodilo prozodijskom modelu za pojedini ljudski glas.

"Zna kako glas govori", kaže Feibleman, dodajući da pomoću "izbora jedinice" računalo odabire niz komada koji će sastaviti jednu kratku riječ, primjerice, gdje se riječju "petak" daje pet komponenti koje pomažu u razvoju poseban naglasak i tonski rezultat.

Umjetni glas u marketingu

Dakle, kako to djeluje u marketingu? Vivovi proizvodi mogli bi biti izuzetno korisni u stvaranju proizvoda, poput audio knjiga, koji bi mogli dosegnuti ciljanu publiku. Na primjer, koliko bi učinkovitiji glas Elvisa mogao biti u usporedbi s današnjim generičkim, mrtvim, automatiziranim glasovima ako bi se koristio za prodaju proizvoda vezanih uz zabavu?

Ili, što je s politikom? Feibleman radi na raznim idejama za korištenje projekata poput ovih kako bi se poboljšao marketing tvrtkama ili drugim stranama kojima je potrebno učinkovitije slanje poruka.

"Ako znate bilo kojeg političara koji se kandiduje za predsjednika, to bi moglo imati 10 milijuna birača države koji se ljuljaju da dobiju osobni poziv kandidata, zahvaljujući im na podršci, govoreći im gdje trebaju ići na glasovanje, vrijeme i sve sitnice noć prije izbora ", rekao je Feibleman.

Vaš Glas živi dalje

Postoji još jedna očita primjena za svu ovu tehnologiju. Tvrtke s prirodnim jezikom poput Vivo-a mogle bi stvoriti osobnu uslugu koja će prenijeti sve glasovne podatke kupca u proizvod koji će toj osobi omogućiti "govor zauvijek".

Praktična primjena vjerojatno bi pokrenula brojna pitanja o tome kako čujemo i internaliziramo izgovorene glasove. Na primjer, što je potrebno da zvučni tok zvuči točno kao netko? Koliko dobro moramo znati osobu da prepozna određeni glas? I zanimljivo, što se događa ako usluga prirodnog jezika proizvede grubu karikaturu, a ne uvjerljivu mimikriju?

Procjena rezultata, kaže Feibleman, često ovisi o razmatranju kon. Na primjer, kaže da djeca obično ne postavljaju pitanja o tome tko govori kada slušaju priču. Oni samo žele više. No isto tako, mnogi odrasli možda neće razmišljati o tome tko s njima razgovara s obzirom na određeni scenarij, poput pasivne emisije ili telefona. Također, lakše se prevariti s računalom preko telefona, jer prigušeni zvuk može maskirati propuste ili druge razlike između rezultata računala i ljudskog glasa.

"Ne pada vam na pamet da osporavate autentičnost glasa", kaže Feibleman.

Godine 2525

Kako tvrtke napreduju u razvoju proizvoda i usluga i odgovaranju na ova pitanja, tehnologija „živog govora“ mogla bi nas odvesti do one konvergencije tehnologije i ljudskog uma, koja se klasično naziva umjetnom inteligencijom (AI).

Ako računala mogu govoriti poput nas, oni će možda moći prevariti druge korisnike da misle kao oni mi, uvodeći se u veće načelo singularnosti, kao što je to u naš leksikon uveo John von Neumann, pionir tehničkih pionira iz 1950-ih, koji su evangelizirali pisci i mislioci poput Raya Kurzweila. Kurzweilsova knjiga iz 2005., „Singularnost je blizu“, uzbuđuje neke, a druge plaši. Kurzweil je predvidio da će do 2045. „inteligencija“ kao fenomen postati uvelike uklonjena iz ljudskog mozga i preći u tehnologiju, zamaglivši crte između strojeva i njihovih ljudskih gospodara.

Besmrtna u stihovima Zager & Evans "U godini 2525" (nitko ne radi jezive znanstvene fantastike poput ovih momaka) ...

Godine 4545
Neće ti trebati zubi, ne treba
tvoje oči
Nećete naći nešto za žvakanje
Nitko vas neće gledati

Godine 5555
Ruke vam padaju bočno
Noge ti nemaju što učiniti
Neki strojevi to rade za vas

Jesu li računalni glasovi korak u tom smjeru? Kao novi način da se izvršavaju neke funkcije ljudskog tijela (ili češće, da se simuliraju), ovakav tehnički napredak jedan je od najvećih - i vjerojatno nedovoljno prijavljenih - napretka na horizontu dok gledamo u jedinstvenu budućnost , (Pročitajte više o "singularnosti" u "Da li će računari moći oponašati ljudski um?"