”Varo maaliskuun tunnia.” Kyllä, on jälleen kyse vuoden vuodesta: kun yliopistokoripallon keisarien on tarkkailtava selkäänsä, etteivät turnauksen alhaiset pohjat iske.
Ennen 15. maaliskuuta miljoonat ihmiset ympäri maailmaa täyttävät maaliskuun hulluutensa. Vuonna 2017 ESPN sai ennätyksellisen 18, 8 miljoonan hakasulun.
Ensimmäinen askel täydelliseen kiinnikkeeseen on ensimmäisen kierroksen oikea valinta. Valitettavasti suurin osa meistä ei voi ennustaa tulevaisuutta. Viime vuonna vain 164 toimitetusta hakasulkeesta oli täydellinen ensimmäisen kierroksen aikana - alle 0, 001 prosenttia.
18, 8 miljoonaa hakasulketta toimitettu.
- ESPN Fantasy Sports (@ESPNFantasy) 18. maaliskuuta 2017
164 ovat täydellisiä kierroksen 1 jälkeen.
Tässä on ylivoittoa. #perfectbracketwatch pic.twitter.com/TGwZNCzSnW
Monet kiinnikkeet rikkoutuvat, kun alemman kylvön joukkue häiritsee suosittua korkeampaa siementä. Sen jälkeen kun kenttä laajeni 64 joukkueeseen vuonna 1985, keskimäärin vähintään kahdeksan nousua tapahtuu vuodessa. Jos haluat voittaa kannatuslokerisi, kannattaa valita ainakin muutama häiriö.
Olemme kaksi matematiikan tohtoria. Ohion osavaltion yliopiston ehdokkaat, joilla on intohimo tietojenkäsittelyyn ja koripalloon. Tänä vuonna päätimme, että olisi hauskaa rakentaa tietokoneohjelma, joka käyttää matemaattista lähestymistapaa ensimmäisen kierroksen häiriöiden ennustamiseen. Jos olemme oikeassa, ohjelman avulla valitun kiinnikkeen pitäisi toimia paremmin ensimmäisen kierroksen aikana kuin keskimääräinen kiinnike.
Fallible ihmiset
Ei ole helppoa tunnistaa, mikä ensimmäisen kierroksen peleistä johtaa järkytykseen.
Sano, että sinun on valittava nro 10 ja 7 nro. Nro 10 siemen on saanut aikaan häiriöitä kolmen viimeisen turnauksensa esiintymisessä, jopa edes Final Four -sarjassa. Nro 7 siemen on joukkue, joka on saanut vain vähän tai ei lainkaan kansallista kattavuutta; rento fani ei ole luultavasti koskaan kuullut heistä. Jonka valitset?
Jos valitsisit 10 siemenen vuonna 2017, olisit mennyt Virginia Commonwealth Universityn kanssa Kalifornian Saint Mary'sin yli - ja olisit ollut väärässä. Äskettäisen virheellisyyden nimisen päätöksentekovirheen ansiosta ihmiset voidaan huijata käyttämään viimeisimpiä havaintojaan päätöksenteossa.
Uudenmukaisuuden puolueellisuus on vain yksi tyyppinen harha, joka voi tunkeutua jonkun poimintaprosessiin, mutta niitä on monia. Ehkä olet puolueellinen kotijoukkueesi suhteen, tai ehkä tunnistut pelaajan kanssa ja haluat epätoivoisesti hänen menestyvän. Kaikki tämä vaikuttaa kiinnikkeesi potentiaalisesti negatiivisella tavalla. Jopa kokenut ammattilaiset kuuluvat näihin ansoihin.
Häiriöiden mallintaminen
Koneoppiminen voi puolustaa näitä sudenkuoppia vastaan.
Koneoppimisessa statistikot, matemaatikot ja tietotekniikan tutkijat kouluttavat koneen tekemään ennusteita antamalla sen “oppia” aikaisemmista tiedoista. Tätä lähestymistapaa on käytetty monilla eri aloilla, mukaan lukien markkinointi, lääketiede ja urheilu.
Koneoppimistekniikat voidaan verrata mustaan laatikkoon. Ensin syötät algoritmin aikaisemmat tiedot, asettamalla valitsimet pääasiassa mustalle ruudulle. Kun asetukset on kalibroitu, algoritmi voi lukea uutta tietoa, vertaa sitä aiempiin tietoihin ja sylkeä sitten ennusteensa.

Koneoppimisessa on saatavana erilaisia mustia laatikoita. Maaliskuu Madness -projektimme, jota halusimme, tunnetaan luokittelualgoritmeina. Ne auttavat meitä määrittämään, onko peli luokiteltava järkytykseksi joko tarjoamalla järkytyksen todennäköisyys tai luokittelemalla peli nimenomaisesti yhdeksi.
Ohjelmamme käyttää useita suosittuja luokittelualgoritmeja, mukaan lukien logistinen regressio, satunnaiset metsämallit ja k-lähimmät naapurit. Jokainen menetelmä on kuin saman koneen eri "tuotemerkki"; ne toimivat yhtä eri tavalla konepellin alla kuin Fords ja Toyotas, mutta suorittavat saman luokitustyön. Jokaisella algoritmilla tai laatikolla on omat ennusteensa järkytyksen todennäköisyydestä.
Käytimme kaikkien 2001–2017 ensimmäisen kierroksen joukkueiden tilastoja asettaaksesi valitsimet mustille laatikoillemme. Kun testimme yhtä algoritmeistamme vuoden 2017 ensimmäisen kierroksen tiedoilla, sen onnistumisaste oli noin 75 prosenttia. Tämä antaa meille luottamusta siihen, että aiempien tietojen analysointi sen sijaan, että luottaisiin vain suolistoomme, voi johtaa tarkempiin ennusteisiin häiriöistä ja siten parempiin kokonaisarvoihin.
Mitä etuja näillä laatikoilla on ihmisen intuitioon nähden? Yhden osalta koneet voivat tunnistaa kuviot kaikista vuosien 2001-2017 tiedoista muutamassa sekunnissa. Lisäksi, koska koneet luottavat vain tietoihin, ne saattavat epäillä todennäköisemmin laskevan ihmisen psykologisia puolueellisuuksia.
Se ei tarkoita, että koneoppiminen antaa meille täydelliset suluissa. Vaikka laatikko ohittaa ihmisen ennakkoluuloton, se ei ole immuuni virheille. Tulokset riippuvat aiemmista tiedoista. Esimerkiksi jos nro 1 siemen menettää ensimmäisellä kierroksella, mallimme ei todennäköisesti ennusta sitä, koska niin ei ole koskaan tapahtunut.
Lisäksi koneoppimisalgoritmit toimivat parhaiten tuhansien tai jopa miljoonien esimerkkien kanssa. Ainoastaan 544 ensimmäisen kierroksen maaliskuun hulluutta peliä on pelattu vuodesta 2001, joten algoritmejamme eivät soita oikein jokaista järkytystä. Kaikuva koripalloasiantuntija Jalen Rose, lähtöämme tulisi käyttää välineenä asiantuntemustietojesi yhteydessä - ja onnea! - valita oikeat pelit.
Koneoppimisen hulluus?
Emme ole ensimmäiset, jotka soveltavat koneoppimista maaliskuun hulluuteen, emmekä ole viimeisiä. Itse asiassa koneoppimistekniikat saattavat pian olla tarpeen, jotta kannatimesi olisi kilpailukykyinen.
Koneoppimisessa ei tarvita matematiikan tutkintoa - vaikka se auttaa meitä. Pian koneoppiminen voi olla helpompaa kuin koskaan. Kiinnostuneet voivat tutustua malleihimme verkossa. Voit vapaasti tutkia algoritmejamme ja keksiä jopa paremman lähestymistavan itse.
Tämä artikkeli on alun perin julkaistu keskustelussa.

Matthew Osborne, matematiikan tohtori, Ohion osavaltion yliopisto
Kevin Nowland, matematiikan tohtori, Ohion osavaltion yliopisto