https://frosthead.com

Miksi Google-influenssatrendit eivät pysty seuraamaan fluntaa (vielä)

Vuonna 2008 Google julkisti kiehtovan uuden palvelun nimeltään Google Flu Trends. Yrityksen insinöörit olivat havainneet, että tietyt hakulausekkeet (kuten sellaiset, jotka sisälsivät sanat "kuume" tai "yskä") näyttivät nousevan jokaisen flunssakauden ajan. Heidän ajatuksensa oli käyttää näiden hakujen taajuutta laskeakseen maanlaajuinen influenssataajuus nopeammin kuin mahdollista. tehdään tavanomaisilla tiedoilla (joiden kerääminen ja analysointi vie yleensä muutaman viikon), jolloin ihmisille tiedotetaan, milloin on toteutettava lisävarotoimenpiteitä viruksen leviämisen välttämiseksi.

Asiaan liittyvä sisältö

  • Kuinka säämallit ja Google voivat auttaa ennustamaan flunssakautta
  • Big data vai liian paljon tietoa?

Tiedotusvälineet (mukaan lukien tämä toimittaja) kiirehtivat onnittelemaan Googlea suuresta datasta niin oivallisesta, innovatiivisesta ja häiritsevästä käytöstä. Ainoa ongelma? Google Flu Trends ei ole suoriutunut kovin hyvin.

Palvelu on johdonmukaisesti yliarvioinut influenssataajuutta verrattuna CDC: n myöhemmin keräämiin tavanomaisiin tietoihin. Arvioidessaan influenssan esiintyvyys on korkeampi kuin todellisuudessa oli 100: lla 108 viikosta elokuun 2011 ja syyskuun 2013 välisenä aikana. Tammikuussa 2013, kun kansalliset influenssakorkeus saavutti huipunsa, mutta Google Flu Trends -arviot olivat kaksinkertaiset todelliseen tietoon verrattuna, ja epätarkkuus alkoi lopulta kerätä lehdistöä.

Yleisin selitys eroavaisuudelle on ollut se, että Google ei ole ottanut huomioon flunssiin liittyvien kyselyiden nousua, joka tapahtuu joka talvi tapahtuvan mediavetoisen influenssahysteerin seurauksena. Mutta tällä viikolla Science- ryhmässä, David Lazerin johtama yhteiskuntatieteilijäryhmä ehdottaa vaihtoehtoista selitystä: syyllinen on Googlen omat hakualgoritmin mukautukset.

Ulkopuolisten on tosin vaikea analysoida Google-influenssatrendejä, koska yritys ei julkista tiettyjä hakutermejä, joita se käyttää raaka-aineena, tai erityistä algoritmia, jota se käyttää näiden termien taajuuden muuntamiseen flunssaarviointeihin. Mutta tutkijat tekivät parhaansa päätelläkseen termejä käyttämällä Google Correlatea, palvelua, jonka avulla voit tarkastella tiettyjen hakutermien hintoja ajan myötä.

Kun tutkijat tekivät tämän useiden influenssaan liittyvien kyselyiden parissa viime vuosien aikana, he havaitsivat, että pari avainhakua (flunssahoitoon liittyvät tutkimukset ja flunssan erottaminen kylmästä) seurasi tarkemmin Google Fluun. Trendien arviot kuin todellisten influenssataajuuksien kanssa, varsinkin kun Google yliarvioi sairauden esiintyvyyden. Vaikuttaa siltä, ​​että nämä etsinnät voivat olla valtava osa epätarkkuusongelmasta.

On toinen syy epäillä, että tämä saattaa olla kyse. Vuonna 2011 Google aloitti osana säännöllistä hakualgoritmien tarkistusta monille kyselyille aiheeseen liittyviä hakutermejä (mukaan lukien flunssahoitojen haun luettelointi sen jälkeen, kun joku löysi useita flunssa liittyviä termejä), ja vuonna 2012 yritys aloitti potentiaalisten diagnoosien tarjoamisen. vastauksena hakujen oireisiin (mukaan lukien esimerkiksi "flunssa" ja "kylmä" luettelointi esimerkiksi sellaisen haun jälkeen, joka sisälsi lauseen "kurkkukipu", ehkä käyttäjää kehotettaessa etsimään, miten erottaa nämä kaksi). Tutkijoiden mukaan nämä hienosäädöt todennäköisesti nostivat keinotekoisesti niiden hakujen määrää, jotka he olivat todenneet vastuussa Googlen yliarvioinneista.

Tietysti, jos tämä hypoteesi olisi totta, se ei tarkoita, että Google Flu Trends on väistämättä tuomittu epätarkkuuteen, vain että se on päivitettävä hakukoneen jatkuvien muutosten huomioon ottamiseksi. Mutta Lazer ja muut tutkijat väittävät, että influenssan seuraaminen isojen tietojen perusteella on erityisen vaikea ongelma.

Valtavan osan hakutermeistä, jotka korreloivat CDC: n influenssataajuustietojen kanssa, osoittautuu, että ihmiset eivät saa flunssaa, vaan kolmas tekijä, joka vaikuttaa sekä etsintäkuvioihin että flunssan leviämiseen: talvi. Itse asiassa Google Flu Trends -kehittäjät kertoivat löytävänsä tiettyjä termejä - esimerkiksi korkeakoulujen koripalloihin liittyviä -, jotka korreloivat influenssataajuuden kanssa ajan myötä, mutta joilla ei selvästikään ollut mitään tekemistä viruksen kanssa.

Ajan myötä Google-insinöörit poistivat manuaalisesti monet termit, jotka korreloivat flunssahakujen kanssa, mutta joilla ei ole mitään tekemistä influenssan kanssa, mutta heidän mallinsa oli selvästi edelleen riippuvainen flunssa kausittaisen haun muista suuntauksista - osa syytä siihen, miksi Google Influenssa-trendit eivät kuvastaneet Vuoden 2009 H1N1-epidemia, joka tapahtui kesällä. Varsinkin aikaisemmissa versioissaan Google Flu Trends oli "osittain flunssadetektori, osittain talvidetektori", Science- lehden kirjoittajat kirjoittavat.

Mutta kaikki tämä voi olla oppitunti suurten tietojen käytöstä Google Flu Trendsin kaltaisissa hankkeissa sen sijaan, että siitä syytetään yleisesti, tutkijat sanovat. Jos se päivitetään asianmukaisesti Googlen oman algoritmin mukautuksiin ja analysoidaan tarkasti puhtaasti vuodenaikojen tekijöiden poistamiseksi, siitä voi olla hyötyä dokumentoitaessa valtakunnallisia influenssataajuuksia - varsinkin kun ne yhdistetään tavanomaisiin tietoihin.

Kokeena tutkijat loivat mallin, jossa yhdistettiin Google Flu Trends -tiedot (jotka ovat pääosin reaaliaikaisia, mutta mahdollisesti epätarkkoja) kahden viikon vanhoihin CDC-tietoihin (jotka on päivätty, koska kerääminen vie aikaa, mutta voisi silti olla jonkin verran viittaa nykyiseen flunssataajuuteen). Heidän hybridi vastasi todellista ja nykyistä fluntatietoa paljon tarkemmin kuin pelkästään Google Flu Trends ja esitteli tavan saada nämä tiedot paljon nopeammin kuin odottaa kaksi viikkoa perinteistä tietoa.

"Google Flu -analyysimme osoittaa, että parhaat tulokset saadaan yhdistämällä molempien lähteiden tiedot ja tekniikat", sanoi Houstonin yliopiston valtiotieteen professori ja kirjoittaja Ryan Kennedy lehdistötiedotteessa. "Sen sijaan, että puhutaan" suuresta datavallankumouksesta ", meidän pitäisi keskustella" kaikesta datavallankumouksesta "."

Miksi Google-influenssatrendit eivät pysty seuraamaan fluntaa (vielä)