https://frosthead.com

Keinotekoinen älykkyys tuottaa ihmisten kasvot heidän äänensä perusteella

Massachusettsin teknillisen instituutin tutkijoiden kehittämä uusi hermoverkko pystyy konstruoimaan karkean arvioinnin yksilön kasvoista pelkästään heidän puhepätkänsä perusteella, esikatselupalvelimen arXiv- raporteissa julkaistu paperi.

Ryhmä koulutti tekoälyn työkalun - koneoppimisalgoritmin, joka on ohjelmoitu ajattelemaan aivan kuten ihmisen aivot - miljoonien online-leikkeiden avulla, jotka vangitsevat yli 100 000 erilaista puhujaa. Kopioituna Speech2Face, hermoverkko käytti tätä tietojoukkoa määrittämään yhteydet ääni-vihkojen ja tiettyjen kasvojen piirteiden välillä; kuten tutkijat kirjoittavat tutkimuksessa, ikä, sukupuoli, suun muoto, huulten koko, luun rakenne, kieli, aksentti, nopeus ja ääntäminen vaikuttavat kaikki puheen mekaniikkaan.

Gizmodon Melanie Ehrenkranzin mukaan Speech2Face hyödyntää ulkoasun ja puheen välisiä assosiaatioita tuottaakseen fotorealistisia renderöintejä eteenpäin suuntautuville henkilöille, joilla on neutraali ilmaisu. Vaikka nämä kuvat ovat liian yleisiä tunnistaakseen tietyksi henkilöksi, suurin osa niistä osoittaa puhujien sukupuolen, rodun ja iän tarkasti.

Mielenkiintoista on, että Jackie Snow selittää Fast Company -yritykselle, uusi tutkimus ei perustu vain aikaisempaan tutkimukseen, joka koski ikä- ja sukupuolen ennusteita puheesta, vaan myös korostaa linkkejä äänen ja "kraniofacial ominaisuuksien", kuten nenän rakenteen, välillä.

Kirjoittajat lisäävät: "Tämä saavutetaan ilman ennakkotietoja tai jos tällaisille hienoille geometrisille ominaisuuksille on olemassa tarkkoja luokittelijoita."

Silti algoritmilla on puutteita. Kuten Live Sciencen Mindy Weisberger toteaa, mallissa on vaikeuksia kieli variaatioiden analysoinnissa. Esimerkiksi, kun Speech2Face toisti äänileikettä aasialaiselta, kiinaa puhuvalta mieheltä, tuotti oikean etnisyyden kasvot, mutta kun sama henkilö nauhoitettiin puhuvan englantia, AI tuotti kuvan valkoisesta miehestä.

Muissa tapauksissa korkeakorkoiset miehet, mukaan lukien lapset, tunnistettiin virheellisesti naisiksi, mikä paljasti mallin sukupuoleen liittyvän puolueellisuuden yhdistäessä matalaääniset äänet miehiin ja korkeat miehet naisiin. Koska koulutustiedot johdettiin pääosin YouTubeen julkaistuista koulutusvideoista, tutkijat huomauttavat lisäksi, että algoritmi ei "edusta yhtä tasaisesti koko maailman väestöä".

Slate-ryhmän Jane C. Hu: n mukaan YouTube-videoiden käytön laillisuus tieteellisessä tutkimuksessa on melko selkeää. Tällaisia ​​leikkeitä pidetään julkisesti saatavilla olevina tiedoina; vaikka käyttäjä tekijänoikeuksia antaisi videoilleen, tutkijat voivat sisällyttää materiaalin kokeisiinsa "reilua käyttöä" koskevan lausekkeen nojalla.

Mutta tämän käytännön etiikka ei ole yhtä suoraviivaista. Puhuessaan Hu: n kanssa Cloudflaren salaustekniikan johtaja Nick Sullivan kertoi olevansa yllättynyt nähdessään kuvan itsestään MIT-ryhmän tutkimuksessa, koska hän ei ollut koskaan allekirjoittanut luopumista tai kuullut suoraan tutkijoilta. Vaikka Sullivan kertoi Huille, että olisi ollut kivaa saada ilmoitusta hänen sisällyttämisestään tietokantaan, hän myöntää, että ottaen huomioon tietopohjan pelkän koon, tutkijoiden olisi vaikea tavoittaa kaikki kuvatut.

Samaan aikaan Sullivan toteaa seuraavaa: "Koska kuvani ja ääneni erotettiin esimerkiksi Speech2Face-lehdessä eikä sen sijaan, että sitä käytettäisiin vain datapisteenä tilastollisessa tutkimuksessa, olisi ollut kohteliasta tavoittaa minut ilmoittamaan minulle tai kysy lupaa. ”

Yksi mahdollinen reaalimaailman sovellus Speech2Faceen on mallin käyttäminen “kiinnittämään edustaja kasvot” puheluihin puhujan äänen perusteella. Snow lisää, että äänentunnistustekniikkaa käytetään jo monilla aloilla - usein ilman yksilön nimenomaista tietämystä tai suostumusta. Viime vuonna Chase käynnisti ”Voice ID” -ohjelman, joka oppii tunnistamaan pankkiin soitettavat luottokorttiasiakkaat, kun taas korjauslaitokset ympäri maata rakentavat tietokantoja vangittujen henkilöiden ”äänitiedostoista”.

Keinotekoinen älykkyys tuottaa ihmisten kasvot heidän äänensä perusteella