https://frosthead.com

Twiitit voivat ennustaa, milloin saat flunssa

Vuonna 1854 brittiläinen lääkäri John Snow vastasi tuhoisalle koleraepidemialle, joka oli laajentunut Lontoon läpi, esittäen ajatuksen, joka mullistaa kansanterveyden alan: epidemiologisen kartan. Tallentamalla koleran esiintymiä kaupungin eri lähiöissä ja piirtämällä ne potilaiden asuinpaikkaan perustuvalle kartalle, hän huomasi, että yksi saastunut vesipumppu oli vastuussa suuresta osasta infektioita.

Kartta vakuutti hänet - ja lopulta myös viranomaisia ​​-, että sairauksien miasma-teoria (joka väitti, että taudit leviävät vahingollisten kaasujen kautta) oli väärä ja että itusoteoria (joka väitti oikein, että mikro-organismit olivat syyllisiä) oli totta. He asettavat lukon puhkeamisesta vastuussa olevan pumpun kahvaan, mikä merkitsee paradigman muutosta, joka muutti pysyvästi tapaa hoitaa tartuntatauteja ja siten puhtaanapitoa.

Kartoitustekniikka on aivan erilainen, kuten sairaus, mutta Snow-kartan ja Rochesterin yliopiston Henry Kautzin johtaman tutkijaryhmän toteuttaman uuden projektin välillä on tietty samankaltaisuus. Luomalla algoritmeja, jotka voivat havaita influenssatrendejä ja tehdä ennusteita avainsanojen perusteella julkisesti saatavilla olevissa maantieteellisissä merkinnöissä, he ottavat uuden lähestymistavan tautien leviämisen tutkimiseen - sellaisen, joka voi muuttaa tapaa tutkia ja seurata sairauksien liikkumista yhteiskunnassa. .

"Voimme ajatella ihmisiä antureina, jotka katsovat ympäröivään maailmaan ja raportoivat sitten näkemästään ja kokemuksestaan ​​sosiaalisessa mediassa", Kautz selittää. "Tämän avulla voimme tehdä yksityiskohtaisia ​​mittauksia väestötasolla, eikä se vaadi aktiivista käyttäjän osallistumista."

Toisin sanoen, kun twittelemme, että meitä on vain lievittänyt tuskallinen yskä ja kuume, tarjoamme tahattomasti rikkaita tietoja valtavasta kansanterveyskokeesta, jota tutkijat voivat käyttää seuraamaan sellaisten sairauksien liikkumista, kuten flunssa korkealla resoluutiolla ja reaaliajassa.

Kautz, nimeltään SocialHealth, on käyttänyt tweettejä ja muunlaista sosiaalista mediaa seuraamaan erilaisia ​​kansanterveyttä koskevia kysymyksiä - äskettäin he alkoivat käyttää tweettejä seuraamaan ruokamyrkytystapauksia New Yorkin ravintoloissa kirjaamalla kirjaan kaikki lähettäneet maantieteellisesti merkittyjen tweetsien ravintolasta ja seuraten heidän tweettejään seuraavan 72 tunnin ajan tarkistaakseen oksentelun, ripulin, vatsakipujen, kuumetta tai vilunväristykset. Näin tehdessään he havaitsivat 480 todennäköistä ruokamyrkytystapausta.

Mutta kauden muuttuessa heidän työnsä seuraa influenssavirusta eniten silmiä avaavaa. Google Flu Trends on samalla tavoin pyrkinyt käyttämään Google-hakijoita flunssan liikkumisen seuraamiseen, mutta malli yliarvioi huomattavasti viime vuoden puhkeamisen, ehkä siksi, että flunssa tiedotusvälineet saivat ihmiset aloittamaan flunssa liittyviä kyselyjä. Twitter-analyysi edustaa uutta tietojoukkoa, jolla on muutama ominaisuus - korkeampi maantieteellinen resoluutio ja kyky tarttua käyttäjän liikkeeseen ajan myötä -, joka voisi tuottaa parempia ennusteita.

Influenssaseurantaprojektin aloittamiseksi SocialHealth-tutkijat katsoivat erityisesti New Yorkia kerääen noin 16 miljoonaa geotunnisteella varustettua julkista tweetiä kuukaudessa 600 000 käyttäjältä kolmen kuukauden ajan. Alla on yhden New Yorkin Twitter-päivän ajanjakso, jossa eri värit edustavat tweetsien eri taajuuksia kyseisessä paikassa (sininen ja vihreä tarkoittaa vähemmän tweettejä, oranssi ja punainen tarkoittaa enemmän):

Kaikkien näiden tietojen hyödyntämiseksi hänen tiiminsä kehitti algoritmin, joka määrittää, edustavatko kukin tweetti raporttia flunssan kaltaisista oireista. Aikaisemmin muut tutkijat olivat yksinkertaisesti tehneet tämän etsimällä avainsanoja twiitteistä (esimerkiksi “sairaita”), mutta hänen työryhmänsä havaitsi, että lähestymistapa johtaa vääriin positiivisiin tuloksiin: Paljon enemmän käyttäjiä piipittää, että he ovat kyllästyneet kotitehtäviinsä kuin he ovat pahoinvointi.

Tämän huomioon ottamiseksi hänen tiiminsä algoritmi etsii kolme sanaa peräkkäin (yhden sijasta) ja pohtii, kuinka usein kyseinen jakso osoittaa sairautta, tweets-sarjan perusteella, jonka he olivat manuaalisesti leimoineet. Esimerkiksi lause "sairas flunssa" korreloi vahvasti sairauden kanssa, kun taas "sairas ja väsynyt" on vähemmän. Jotkut tietyt sanat - päänsärky, kuume, yskä - liittyvät vahvasti sairauteen riippumatta siitä, mihin kolmen sanan jaksoon he kuuluvat.

Kun nämä miljoonat tweetit oli koodattu, tutkijat voivat tehdä muutamia kiehtovia asioita heidän kanssaan. Ensinnäkin he tarkastelivat flunssaan liittyvien tweetsien muutoksia ajan myötä ja vertasivat niitä CDC: n ilmoittamiin flunssan tasoihin vahvistaen, että tweetit tarttuivat tarkasti flunssatahdin yleiseen kehitykseen. Toisin kuin CDC-tiedot, se on kuitenkin saatavana lähes reaaliajassa, eikä viikon tai kahden kuluttua tosiasiasta.

Mutta he menivät myös syvemmälle, tarkastelemalla eri käyttäjien vuorovaikutusta - jota edustaa kaksi käyttäjää, jotka tweettivät samasta paikasta (GPS-resoluutio on noin puoli kaupunkialue) saman tunnin sisällä - mallinntaakseen, kuinka todennäköistä on, että terve henkilö sairastua joutuessaan kosketuksiin jonkun kanssa, jolla on flunssa. Ilmeisesti kaksi ihmistä, jotka twiittivät samasta lohkosta 40 minuutin välein, eivät välttämättä tapaa henkilökohtaisesti, mutta todennäköisyys heille tavanneen on hiukan korkeampi kuin kaksi satunnaista käyttäjää.

Seurauksena on, että kun tarkastelet tarpeeksi suurta vuorovaikutustietojoukkoa, syntyy kuva lähetyksestä. He havaitsivat, että jos terveellinen käyttäjä kohtaa 40 muuta käyttäjää, jotka ilmoittavat olevansa sairaita influenssaoireissa, hänen todennäköisyytensä saada influenssaoireita seuraavana päivänä nousee alle prosentista 20 prosenttiin. 60 vuorovaikutuksen avulla tämä luku nousee 50 prosenttiin.

Ryhmä tarkasteli myös itse Twitterissä tapahtuvaa vuorovaikutusta eristäen parit käyttäjiä, jotka seuraavat toisiaan, ja kutsuivat heitä "ystävyyssuhteiksi". Vaikka monet Twitter-suhteet ovat olemassa vain verkossa, jotkut vastaavat tosielämän vuorovaikutusta, ja he havaitsivat, että käyttäjä jolla on kymmenen ystävää, jotka ilmoittavat olevansa sairaita, on 28 prosenttia todennäköisemmin sairas seuraavana päivänä. Kaikkien näiden tyyppisten vuorovaikutusten avulla heidän algoritmi kykeni ennustamaan sairastuuko terveellinen ihminen (ja piipittämään siitä) 90-prosenttisella tarkkuudella.

Olemme vielä tutkimuksen alkuvaiheessa, ja rajoituksia on paljon: Suurin osa ihmisistä ei silti käytä Twitteriä (kyllä, todella), ja vaikka he tekisivätkin, he eivät ehkä tweettivät sairastumistaan.

Mutta jos tällaista järjestelmää voitaisiin kehittää edelleen, on helppo kuvitella kaikenlaisia ​​sovelluksia. Älypuhelimesi voi varoittaa sinua automaattisesti, esimerkiksi jos vietit liian paljon aikaa flunssa olevien ihmisten käyttämiin paikkoihin, kehotuksen sinua menemään kotiin lopettamaan itsesi tartunnan tielle. Koko kaupungin asukkaita voitaisiin jopa varoittaa, jos se olisi puhkeamisen partaalla.

Huolimatta siitä, että olemme poistaneet John Snow -taudin kartoituksen läpimurtosta 150 vuotta, on selvää, että tautitiedoista on edelleen joitain näkökohtia, joita emme ymmärrä täysin. Nyt, kuten silloin, tietojen kartoittaminen voisi auttaa antamaan vastauksia.

Twiitit voivat ennustaa, milloin saat flunssa