https://frosthead.com

Umetna inteligenca ustvarja človekove obraze na podlagi njihovih glasov

Nova nevronska mreža, ki so jo razvili raziskovalci z Massachusetts Institute of Technology, je sposobna sestaviti grobo približanje posameznikovega obraza, ki temelji le na odseku njihovega govora, je bil objavljen članek, objavljen v poročilu arXiv pred tiskanjem.

Skupina je usposobila orodje za umetno inteligenco - algoritem strojnega učenja, ki je programiran tako, da razmišlja tako kot človeški možgani, s pomočjo milijonov spletnih posnetkov, ki so zajeli več kot 100.000 različnih zvočnikov. Nevronsko omrežje, ki so ga poimenovali Speech2Face, je ta nabor podatkov uporabil za določitev povezav med glasilkami in posebnostmi obraza; kot znanstveniki v študiji pišejo, starost, spol, oblika ust, velikost ustnic, kostna zgradba, jezik, naglas, hitrost in izgovorjava vse vplivajo na mehaniko govora.

Po besedah Gizmodo Melanie Ehrenkranz Speech2Face črpa povezave med videzom in govorom, da ustvari fotorealistično upodabljanje spredaj obrnjenih oseb z nevtralnimi izrazi. Čeprav so te slike preveč splošne, da bi se lahko identificirale kot specifična oseba, jih večina natančno določi spol, raso in starost govorcev.

Zanimivo je, da Jackie Snow pojasnjuje za Fast Company, da nove raziskave ne temeljijo samo na predhodnih raziskavah v zvezi z napovedjo starosti in spola zaradi govora, temveč tudi osvetlijo povezave med glasom in "kraniofacialnimi lastnostmi", kot je struktura nosu.

Avtorji dodajajo: "To dosežemo brez predhodnih informacij ali obstoja natančnih klasifikatorjev za te vrste finih geometrijskih lastnosti."

Kljub temu ima algoritem svoje pomanjkljivosti. Kot ugotavlja Mindy Weisberger iz Live Science, ima model težave pri analizi jezikovnih različic. Na primer, ko je na primer predvajal avdio posnetek azijskega moškega, ki govori kitajsko, je Speech2Face ustvaril obraz pravilne etnične pripadnosti, ko pa je isti posameznik posnel angleško, je AI ustvaril podobo belca.

V drugih primerih so bili moški z visokim nastopom, vključno z otroki, napačno opredeljeni kot samice, kar je razkrilo spolno pristranskost modela pri povezovanju glasov z moškimi in močnih žensk. Glede na dejstvo, da so podatki o usposabljanju večinoma izhajali iz izobraževalnih videoposnetkov, objavljenih na YouTubu, raziskovalci nadalje poudarjajo, da algoritem ne predstavlja "enakopravne celotne svetovne populacije."

Po besedah Slate Jane Jane Hu je zakonitost uporabe videoposnetkov YouTube za znanstvene raziskave dokaj jasna. Takšni posnetki veljajo za javno dostopne informacije; četudi uporabnik avtorsko zaščiti svoje video posnetke, lahko znanstveniki gradivo vključijo v svoje poskuse pod klavzulo o »pošteni uporabi«.

Toda etika te prakse je manj preprosta. Nick Sullivan, vodja kriptografije pri Cloudflare, je v pogovoru s Huom dejal, da je bil presenečen, ko je videl fotografijo sebe, ki je bila predstavljena v študiji ekipe MIT, saj še nikoli ni podpisal opustitve ali je slišal neposredno od raziskovalcev. Čeprav Sullivan pravi Huu, da bi bilo "lepo", da je bil obveščen o njegovi vključitvi v bazo, priznava, da bi znanstveniki glede na velikost baze podatkov težko dosegli vse, ki so prikazani.

Hkrati Sullivan zaključi: "Ker sta bila moja slika in glas kot primer v papirju Speech2Face navedena kot primer, namesto da bi jo uporabili kot podatkovno točko v statistični študiji, bi bilo vljudno, če bi me sporočil oz. prosite za moje dovoljenje. "

Ena od potencialnih aplikacij za Speech2Face v realnem svetu uporablja model, da "priloži reprezentativni obraz" za telefonske klice na podlagi glasu govorca. Snow dodaja, da se tehnologija prepoznavanja glasu že uporablja na številnih področjih - pogosto brez izrecnega znanja ali privolitve posameznikov. Chase je lani predstavil program »Voice ID«, ki se uči prepoznati stranke kreditnih kartic, ki kličejo banko, medtem ko popravne ustanove po vsej državi gradijo baze podatkov o »glasovnih odtisih« zapornikov.

Umetna inteligenca ustvarja človekove obraze na podlagi njihovih glasov