https://frosthead.com

Kuinka Google pitää roskapostin pois postilaatikostasi

Kaikkien Googlen tietojen rapistamisen takana - mietinnästä, mitkä hakutulokset ovat tärkeimmät, välilehteiden lukemiseen ja pitämiseen sähköpostissasi - on mielenkiintoista matematiikkaa. Ja äskettäin ohjelmistosuunnittelija Javier Tordable piti sen esityksen avaten ikkunan geekiseen Google-maailmaan vain halkeaman.

Aloitetaan Gmailista. Joskus saat roskapostia, mutta Gmail on aika tajunnut, että kun kirjeenvaihtaja yrittää saada sinut sijoittamaan Nigerian prinssiin, et todennäköisesti halua kyseistä postia postilaatikkoosi. Kuinka se tietää? Vaihe yksi: kouluta kone. Vaihe toinen: laita se toimimaan.

Sitä kutsutaan koneoppimiseksi, ja Google tekee siitä paljon. Ensimmäisessä vaiheessa sinun on tehtävä se, mitä tietokonetieteilijät kutsuvat ”ilmentämään esimerkkiä”. Matemaattisessa puheessa se tarkoittaa:

Yleensä esimerkin ominaisuuksia voidaan pitää elementteinä moniulotteisen euklidisen tilan vektorissa suurelle n: lle (100-1000 ulottuvuus on normaali, 1M-10M ei ole ennenkuulumaton)

Mutta tässä on kuinka ajatella sitä, jos lopetit matematiikan Calc 1: n jälkeen. Gmail voi vetää muutaman tärkeän tiedon mistä tahansa tietystä sähköpostiviestistä. Kuinka pitkä se on? Kuinka monta isoja kirjaimia siellä on? Onko tämä jollekulta saanut sähköpostin aiemmin? Et halua, että päätöksen tekemiseen vaadittavat tiedot ovat liian vaikeita saada tai käsitellä, koska se hidastaa ja heikentää koneesi tarkkuutta. Joten Google vetää viivan sen perusteella, mitä se tietää roskapostista. Läpäisevät sähköpostit putoavat linjan yhdelle puolelle ja roskapostit toiselle.

Lisää matematiikkaa puhua:

Yksinkertainen luokittelumalli on ominaisuuksien tilassa oleva hypertaso. Hypertason toisella puolella olevat tietoilmentymät luokitellaan kelvollisiksi sähköposteiksi ja toisella puolella olevat ilmentymät roskapostiksi.

Entä äänihaku - jota kutsutaan myös automaattiseksi puhetunnistukseksi tai ASR: ksi? Kuten koneoppiminen, ASR tapahtuu kahdessa osassa: prosessoidaan tuleva ääni ja selvitetään mitä sanot. Ensimmäinen osa sisältää Fourier-muunnoksia, jotka eristävät tärkeät bitit, jotka tietokone pystyy kääntämään. Toinen osa on puheen mallintaminen käyttämällä niin kutsuttua "piilotettua Markovin mallia". Tordable selittää:

Tässä mallissa tilat ovat viestin kirjaimia ja tapahtumien jakso on äänisignaali. Viterbi-algoritmia voidaan käyttää maksimaalisen todennäköisyyden tilojaksojen saamiseksi.

Google haluaisi tehdä äänentunnistuksesta paremman ja helpomman. Tässä tapaustutkimuksessa ryhmä Google-vinkkejä kirjoittaa:

Google: n tavoitteena on tarjota puhunut pääsy kaikkialle maailmaan. Haluamme antaa käyttäjän valita - heidän pitäisi voida pitää itsestään selvänä, että puhuttu vuorovaikutus on aina vaihtoehto. Ubikiteetin saavuttaminen vaatii kahta asiaa: saatavuuden (ts. Sisäänrakennetun jokaiseen vuorovaikutukseen, jossa puheen syöttö tai lähtö on järkevää) ja suorituskyvyn (eli toimii niin hyvin, että modaalisuus ei lisää vuorovaikutukseen kitkaa).

Toinen alue, jolla Google käyttää matematiikkaa, on heidän karttoissaan - valossa äskettäin sen jälkeen, kun Apple debytoi heidän kartoitusjärjestelmäänsä huomattavan kritiikin perusteella. Google Mapsin ytimessä on perusdiagrammiteoria - matematiikka siitä, kuinka päästä paikasta toiseen matkustettaessa lyhin matka. Mutta tietysti se on monimutkaisempi. Tordable kirjoittaa: "Yksi ainutlaatuinen ongelma on, että Google Mapsissa käytetyissä kaavioissa on miljoonia solmuja, mutta algoritmien on suoritettava millisekuntina."

Google ei kerro meille kuinka he tekevät niin. Muuten Apple ei olisi joutunut ongelmaansa, mutta perusteisiin kuuluu Dijsktran algoritmin (todennäköisesti yleisimmin käytetyn kuvaajahakualgoritmin) sekoittaminen. Muutama vuosi sitten Karlsruhen yliopiston atk-tutkijat kuvasivat uutta tapaa reitittää polkuja saadaksesi paljon nopeampia tuloksia. He kirjoittivat:

Algoritmiamme esikäsittää USA: n tai Länsi-Euroopan karttoihin tarvittavan kahdeksan numeroisen solmun lukumäärän muutamassa tunnissa käyttäen lineaarista tilaa. Lyhyimmät (ts. Nopeimmat) polkukyselyt vievät sitten noin kahdeksan millisekuntia tuottaaksesi tarkat lyhyimmät polut. Tämä on noin 2000 kertaa nopeampaa kuin käyttämällä Dijkstra-algoritmia.

Tordable käy läpi monia muita Googlen käyttämiä matemaattisia työkaluja, mukaan lukien Google Kirjat, Kuvahaut, Analytics, YouTube, Google Translate, Google Earth ja Picasa. Voit nähdä koko diojoukon täältä.

Lisää Smithsonian.com-sivustolta:

Smithsonian saa Google-kartan
Seuraa ruokatrendejä Google-kirjojen avulla

Kuinka Google pitää roskapostin pois postilaatikostasi