https://frosthead.com

Voiko tilastollinen malli ennustaa olympiamitalit tarkasti?

Jos joku pyysi sinua ennustamaan mitalien määrän, jonka kukin maa aikoo voittaa tämän vuoden olympialaisissa, yrität todennäköisesti tunnistaa suositut urheilijat kussakin tapahtumassa, niin kunkin maan odotettavissa olevat voitot yhteensä saavuttavat tuloksen.

Timing ja Dan Graettinger, tietojen kaivosyhtiön Discovery Corps, Inc: n takana olevat veljet, käyttävät melko erilaista lähestymistapaa. He jättävät urheilijat kokonaan huomiotta.

Sen sijaan heidän Sotši-pelien mallissa tarkastellaan kunkin maan maantieteellistä aluetta, BKT: tä asukasta kohti, viennin kokonaisarvoa ja leveyttä, jotta voidaan määrittää, kuinka monta mitalia kukin maa voittaa. Jos ihmettelet, se ennustaa Yhdysvaltain tulevan kärjessä, yhteensä 29 mitalia.

Graettingers eivät ole ensimmäisiä, jotka käyttävät tällaista tietopohjaista, ylhäältä alas suuntautuvaa lähestymistapaa mitalien määrän ennustamiseen. Colorado College -yliopiston taloustieteen professori Daniel Johnson rakensi samanlaisia ​​malleja viidelle olympialaiselle vuosina 2000–2008 - saavuttaakseen 94 prosentin tarkkuuden kunkin maan mitalien määrän ennustamisessa - mutta ei luonut mallia Sotšille.

Dan ja Tim ovat pelin uudempia. Dan - joka työskentelee yleensä tavanomaisissa tiedonlouhintaprojekteissa, esimerkiksi ennustamalla yrityksen potentiaalisia asiakkaita - kiinnostui ensin mallien käytöstä kilpailujen ennustamiseen neljä vuotta sitten, Vancouverin talviolympialaisissa. "Käytän jatkuvasti tietoja menneisyydestä tulevaisuuden ennustamiseksi", hän sanoo. "Joka ilta he näyttivät mitalimäärän televisiossa, ja aloin miettiä, voisimmeko ennustaa sen."

Vaikka yksittäisten urheilijoiden suoritukset voivat vaihdella arvaamattomasti, hän perusteli, maan perusominaisuuksien (esimerkiksi maan koko, ilmasto ja varallisuuden määrä) ja mitalien lukumäärän välillä, jonka se todennäköisesti vie kotiin, voi olla yleinen suhde. Tällainen lähestymistapa ei pystyisi sanomaan, mikä kilpailija voi voittaa tietyn tapahtuman, mutta jos sillä on tarpeeksi tietoa, se saattaa pystyä ennustamaan tarkasti mitalien kokonaismäärät kussakin maassa.

Aluksi hän ja hänen veljensä aikoivat kehittää alustavaa mallia vuoden 2012 Lontoon peleihin. Aluksi he keräsivät laajan valikoiman erityyppisiä tietojoukkoja kaikesta maan maantieteestä historiaan, uskontoon, vaurauteen ja poliittiseen rakenteeseen. Sitten he käyttivät regressioanalyysejä ja muita tietojen murskausmenetelmiä nähdäkseen, mitkä muuttujat olivat läheisimmin olympiamitalien historiallisten tietojen kanssa.

He havaitsivat, että kesäpeleissä malli, joka sisälsi maan bruttokansantuotteen, väestön, leveyden ja yleisen taloudellisen vapauden (mitattuna Heritage-säätiön indeksillä), vastasi parhaiten kunkin maan kahden edellisen kesäolympialaisten (2004) mitalimäärää. ja 2008). Mutta siinä vaiheessa niiden alustava malli pystyi vain ennustamaan, mitkä maat voittavat kaksi tai enemmän mitalia, ei mitaleiden lukumäärä maata kohti.

He päättivät parantaa sitä Sotši-peleissä, mutta eivät voineet luottaa aiempaan malliinsa, koska talvella menestyvät maat eroavat niin suuresti kesästä. Heidän uusi Sotši-malli käsittelee mitalien määrän ennustamisen ongelman kahdessa vaiheessa. Koska noin 90 prosenttia maista ei ole koskaan voittanut yhtä talviolympialaisten mitalia (kukaan Lähi-idän, Etelä-Amerikan, Afrikan tai Karibian urheilija ei ole koskaan voittanut), se erottaa ensin kymmenen prosenttia, jotka todennäköisesti voittavat ainakin yhden, ja sitten ennustaa kuinka monta jokainen voittaa.

"Jotkut suuntaukset ovat melko mitä odotat - kun maan väestö kasvaa, on todennäköistä, että se voittaa mitalin", Tim sanoo. "Lopulta kuitenkin tarvitset jonkin verran tehokkaampia tilastollisia koneita, jotka voivat hioa läpi paljon muuttujia ja järjestää ne mitkä ovat ennakoivimpia."

Lopulta he ottivat käyttöön muutamia muuttujia, jotka erottivat tarkkaan 90 prosenttia mitalia ei voittaneista maista kymmenestä todennäköisesti voittavasta maasta: näihin sisältyivät muuttoliikeaste, lääkäreiden määrä henkeä kohti, leveysaste, bruttokansantuote ja se, oliko maalla voitti mitalin edellisissä kesäpeleissä (yksikään maa ei ollut koskaan voittanut talvimitalia voittamatta yhtäkään edellisenä kesänä, osittain siksi, että kesävoittajien joukko on paljon suurempi kuin talvi). Ajamalla tätä mallia kahdessa edellisessä talviolympialaisessa, tämä malli määritteli, mitkä maat veivät kotiin mitalin 96, 5 prosentin tarkkuudella.

Koska 90 prosenttia maista oli eliminoitu, Graettingers käytti samanlaisia ​​regressioanalyysejä luodakseen mallin, jossa ennustettiin takautuvasti, kuinka monta mitalia kukin jäljellä oleva maa voitti. Heidän analyysinsä perusteella todettiin, että hiukan erilainen muuttujien luettelo sopii parhaiten historiallisten mitalitietoihin. Nämä muuttujat ja ennusteet Sotši-peleistä ovat alla:

Kuva 4 - Ennustettu mitalimallitaulukko 2 - border.png Mallin ennusteet Sotši-peleistä (Graph courtesy Discovery Corps, Inc.)

Jotkut muuttujista, jotka osoittautuivat korrelatiivisiksi, eivät ole valtava shokki - on järkevää, että korkeamman leveysasteen maat menestyvät paremmin talvipeleissä pelatuissa tapahtumissa - mutta jotkut olivat yllättäviä.

"Pidimme tärkeänä väestöä, ei maa-aluetta", Dan sanoo. He eivät ole varmoja siitä, miksi maantieteellinen alue sopii historiallisiin tietoihin tarkemmin, mutta se voi johtua siitä, että muutamat väestömäärän maat, jotka eivät voita talvimitalia (kuten Intia ja Brasilia), heittävät tiedot pois. Käyttämällä sen sijaan maa-aluetta, malli välttää näiden maiden ylisuuria vaikutuksia, mutta silti säilyttää karkean yhteyden väestöön, koska kaiken kaikkiaan maissa, joilla on suurempi alue, on väestö suurempi.

Malli ei tietenkään ole täydellinen, edes historiallisten tietojen kanssa. "Lähestymistapamme on 30 000 jalan lähestymistapa. On muuttujia, joita emme voi ottaa huomioon", Tim sanoo. Jotkut maat ovat toistuvasti ylittäneet mallin ennusteet (mukaan lukien Etelä-Korea, joka voittaa suhteettoman paljon lyhytkertaisia ​​pikaluistelutapahtumia), kun taas toiset maat ovat jatkuvasti heikompia (kuten Yhdistynyt kuningaskunta, joka näyttää toimivan paljon paremmin odotettavissa olevilla kesätapahtumilla, ehkä siksi - leveydestä huolimatta sataa paljon enemmän sadetta kuin lunta).

Lisäksi johdonmukainen poikkeus, jonka he ovat löytäneet mallin ennusteisiin, on se, että isäntämaa pussittaa enemmän mitaleita kuin muuten tekisi, yksinkertaisesti tietojen perusteella. Sekä Italia (vuoden 2006 Torinon-pelien aikana) että Kanada (vuoden 2010 Vancouver-pelien aikana) suorittivat mallin paremmin. Kanada asetti kaikkien aikojen ennätyksensä voittamalla 14 kultaa.

Tilastollisesti tiukan lähestymistavansa perusteella graettingerit ovat silti vakuuttuneita siitä, että kokonaisuutena heidän mallisi ennustaa lopulliset mitalimäärät suhteellisen suurella tarkkuudella.

Kuinka heidän ennusteitaan verrataan perinteisempiä strategioita käyttävien asiantuntijoiden ennusteisiin? Asiantuntijat eivät eroa toisistaan ​​dramaattisesti, mutta heillä on muutama perinteisesti menestyvä maa (Norja, Kanada, Venäjä), joka voittaa enemmän mitaleita, ja muutama muu (Kiina, Alankomaat, Australia), joista kukin voittaa muutama vähemmän.

Tähän päivään mennessä Graettingers ei ole lyönyt vetoa ennusteissaan, mutta he suunnittelevat vertaamalla mallinsa tuottoa vedonlyöntikertoimiin juuri ennen kuin pelit alkavat. Jos he näkevät ristiriitaisuuksia, joita he haluaisivat hyödyntää, he saattavat lopulta laittaa rahansa suun suunsa.

Voiko tilastollinen malli ennustaa olympiamitalit tarkasti?