https://frosthead.com

Big Data sai vain suuremman, kun IBM: n Watson täyttää elämän tietosanakirjan

2000 vuoden kuluttua elämän lopullinen tietosanakirja on uuden tietovetoisen ajanjakson kärjessä. Kansallisen tiedesäätiön apuraha on myönnetty Elämän tietosanakirjalle (EOL), IBM: lle ja Georgian teknilliselle instituutille. Apuraha mahdollistaa valtavien tietomäärien prosessoinnin ja risti-indeksoinnin tavalla, joka mahdollistaa uraauurtavan tieteen tekemisen.

Asiaan liittyvä sisältö

  • Ehdotettu uusi merialuejärjestelmä tarjoaa Rosy Outlookin sekä hummerille että hummerikalastajalle

Vuonna 77 jKr. Plinius vanhin aloitti maailman ensimmäisen tietosanakirjan, luonnonhistorian, kirjoittamisen. Se sisälsi kaiken tähtitiedestä kasvitieteen, eläintieteen ja antropologian välille. Plinius yritti laittaa kaiken, mitä hän henkilökohtaisesti pystyi keräämään luonnon suhteen, yhteen kirjalliseen teokseen. Viimeisen 2000 vuoden ajan Plinius-inspiroimien tutkijoiden pitkä aikajakso on pyrkinyt samaan visioon.

Plinius sisälsi 20 000 aihetta 36 osaan, mutta rajoittui siihen, mitä yksittäinen ihminen voi löytää, tallentaa ja käsitellä ihmisen elinaikana. Hän kuoli Vesuviuksen purkauksen aikana ennen kuin hän pystyi viimeistelemään magnum opuksensa viimeisen muokkauksen. Jopa omalla aikakaudellaan yksi henkilö ei pystynyt lukemaan kaikkia kirjoja, oppimaan kaikkia asioita ja selittämään kaiken maailmalle.

Kuten myöhemmät tutkijat, toimittajat ja kirjastonhoitajat havaitsivat maailmasta, joka lisää kullekin vuodelle enemmän kirjallista tietoa, vaikka voisit säilyttää kaikki maailman kirjat ja tutkimukset yhdessä rakennuksessa, on haaste tehdä kaikki asiaankuuluvat tiedot tutkijat lyhyen ihmishenkensä rajoissa.

EOL saattaa pystyä muuttamaan tämän soveltamalla huipputeknistä laskentatehoa biologisten tietojen erillisiin kokoelmiin. Hanke on ilmainen ja avoin digitaalinen kokoelma biologista monimuotoisuutta koskevista tosiasioista, artikkeleista ja multimediasta, joka on yksi maailman suurimmista. EOL, jonka pääkonttori on Smithsonian instituutiossa, ja sen 357 yhteistyökumppanin ja sisällöntuottajan kanssa, mukaan lukien Harvardin yliopisto ja Egyptin Aleksandrian uusi kirjasto, ovat kasvaneet 30 000 sivusta, kun se julkaistiin vuonna 2008, yli 2 miljoonaan, 1, 3 miljoonalla sivulla tekstiä, karttoja, video, ääni ja valokuvat, ja tukee 20 kieltä.

”Tulin Smithsonianille vuonna 2010 ohjelmistoteollisuudesta”, kertoo EOL: n johtaja Bob Corrigan. ”Yksi löytöistä, jotka tein tänne tullessani, on, että vaikka IT on kaikkialla, se ei ole tunkeutunut museomaailmaan samalla tavalla kuin kaupallisiin. Erityisesti biologiassa tärkein tieto on haudattu oppikirjoihin ja laskentataulukoihin. ”

Kuinka eri muodoissa olevat biologiset tiedot voidaan yhdistää ja hyödyntää uutta tietoa elämästä maan päällä? Entä jos tiedot esimerkiksi perhosten biologisesta monimuotoisuudesta Afrikassa vuosikymmenen aikana yhdistetään viljelykäytäntöjä ja sateita koskeviin tietoihin? Voisiko oppia jotain uutta? Tämän tekemiseen tarvitaan jotain isompaa kuin ihmisen aivot. Jotain IBM: n Watson-supertietokoneen kaltaista.

"IBM myötävaikuttaa ponnisteluihin ja pääsyyn [Watsonin] versioon, joka ei ole julkisesti saatavilla", sanoo EOL: n ohjelmajohtaja Jennifer Hammock. ”He myös saavat ihmiset työskentelemään sen parissa. IBM tekee tämän luontoissuorituksena. ”

Watson on supertietokone, joka ei vain purista numeroita suurina määrinä. Se käyttää tekoälyä, jotta käyttäjät voivat kysyä kysymyksiä selkeästi.

"Käyttäjän kannalta sanoisin, että se tarkoittaa, että tietokanta on jotain, johon voi kävellä ja esittää kysymyksen ikään kuin ihminen", Hammock sanoo. "Kuten, voisitko kertoa minulle esiintyykö tätä violettia perhosta Afrikassa?"

"Minkä tahansa kielen vastaaminen yksinkertaiseen kysymykseen edellyttää, että kulissien takana on paljon tietoa", Corrigan sanoo. Jopa [sana] violetti, se edellyttää, että tiedämme, mikä violetti on. Tai perhonen, [tietokoneen] on ymmärrettävä ero perhonen ja koin välillä. Tämän lisäksi tietokokonaisuuksilla on erilaisia ​​tapoja ajatella näitä erilaisia ​​termejä. Kaikki nämä tiedot on ollut vaikea kaivattaa ilman Rosetta-ehtokiviä. Ja se on osa EOL: n tekemän taikuutta. ”

Yksi tieteellinen kysymys, jonka EOL: n, IBM: n ja Georgia Techin yhteistyö toivoo ratkaistavan, on planktonin paradoksi.

Hammockin mukaan tietokonesimulaatioilla työskentelevät tutkijat ”yrittävät mallintaa meressä tapahtuvaa sanomalla, että aurinko paistaa ja levät kasvavat. . . sillä on tavallaan karkea likiarvo, mutta he eivät pääse [ekosysteemin tietokonemalliin] vakaan. He menevät hetkeksi ja sitten kaatuvat. Koska ne ovat liian yksinkertaisia. He toivovat, että jos he pystyvät osoittamaan hieman enemmän monimuotoisuutta mallinnetussa biosfäärissä, heistä tulee vakaampia. . . .paradoksi on: miten valtameren biosfääri on olemassa? Miksi se ei kaatu? ”

"Ihmiset istuvat datalla", Corrigan sanoo. ”Kaikkialla planeetalla on uskomattomia biologisen monimuotoisuuden mittausalustoja. Saan paljon puheluita ihmisiltä, ​​jotka istuvat tämän tiedon päällä ja haluavat apua sen saattamisessa laajempaan kontekstiin. Se on tärkeää, koska olemme kilpailussa tutkimaan tätä planeettaa ja oppimaan, kuinka kehityksemme korostaa äärellisiä resurssejamme. . . Smithsonianilla voi olla merkitys kaikkien näiden lähteiden tietämyksen lisäämisessä ja olla todellinen voima levittää sitä. "

Neljännes miljoonan dollarin apurahasta myönnetään Smithsonianille sen osuudesta työssä, mutta EOL sisältää paljon muita toimijoita. Jotkut kehittäjät ovat Egyptissä; koulutustiimi perustuu Harvardista; ja espanjan kielen yksikkö on México.

Kaikki EOL: n tiedot ovat edelleen joko julkisia tai Creative Commons-lisensoituja. Tutkimuksen ja datan on tarkoitus olla julkisesti saatavissa eikä piilotettu palkkaseinän taakse.

"Se on hyvin vanha unelma", Hammock sanoo. ”Yksi ihminen ei todennäköisesti osaa oppia kaikkea. On vaikea sijoittaa kaikki yhteen paikkaan, jossa se voidaan tietoisesti tarkistaa itseään vastaan. Mutta nyt meillä on tietokoneita. ”

Plinius olisi joko erittäin tyytyväinen tai erittäin kateellinen.

Big Data sai vain suuremman, kun IBM: n Watson täyttää elämän tietosanakirjan