https://frosthead.com

Kuinka keinotekoinen älykkyys voi mullistaa arkistomuseomuseoksen

Kun ajattelet tekoälyä, kasvitieteen ala ei todennäköisesti ole ylimpänä mielessäsi. Kun kuvaa kuvia huipputeknisestä laskennallisesta tutkimuksesta, vuosisadan vanhat museot eivät välttämättä ole kärjessä. Ja vielä, juuri julkaistu artikkeli Biodiversity Data Journal osoittaa, että jotkut mielenkiintoisimmista ja rohkeimmista koneoppimisen innovaatioista tapahtuu missään muussa kuin Washingtonin DC: n kansallisen luonnontieteellisen museon kansallisessa herbaariossa.

Artikkeli, joka osoittaa, että digitaaliset hermoverkot kykenevät erottamaan kaksi samanlaista kasviperhettä toisistaan ​​ja joiden tarkkuus on selvästi yli 90 prosenttia, viittaa kaikenlaisiin suun juottamismahdollisuuksiin tutkijoille ja tutkijoille, jotka etenevät. Tutkimus perustuu "syvän oppimisen" algoritmeihin pohjautuviin ohjelmistoihin, joiden avulla tietokoneohjelmat voivat kerätä kokemusta samalla tavalla kuin ihmisen asiantuntijat, ylöspäin peliin joka kerta, kun he ajavat. Pian tämä tekniikka voisi mahdollistaa miljoonien erillisten näytteiden vertailevan analyysin maapallon kaikista kolkista - väite, joka olisi aiemmin vaatinut kestämätöntä määrää ihmisen työvoimaa.

"Tämä tutkimussuunta osoittaa paljon lupauksia", sanoo Stanfordin professori Mark Algee-Hewitt, digitaalisen humanistisen liikkeen näkyvä ääni ja yliopiston tila- ja tekstianalyysikeskuksen apulaisjohtaja. "Näillä menetelmillä on kyky antaa meille valtavia määriä tietoa siitä, mitä kokoelmat sisältävät", hän sanoo ja "toimiessaan ne tekevät näistä tiedoista saataville."

Nämä uudet havainnot perustuvat Smithsonian-instituutissa vuosien ajan tehtyyn työhön digitalisoidakseen systemaattisesti kokoelmansa akateemista ja julkista saatavuutta varten verkossa, ja edustavat merkittävää mielenvälistä monitieteistä kokousta: kasvitieteilijöillä, digitalisoinnin asiantuntijoilla ja tietotieteilijöillä kaikilla oli oma osuutensa näiden tuomisessa tulokset valoon.

Tarina alkaa lokakuussa 2015, jolloin kameran ja kuljetinhihnan laitteiston asentaminen luonnontieteellisen museon alle yksinkertaisti huomattavasti pyrkimyksiä digitalisoida Smithsonianin kasvitieteellinen kokoelma. Sen sijaan, että tarvitsisi skannata manuaalisesti kaikki varastossa olevat puristetut kukat ja ruohokerrat, työntekijät voisivat nyt jonottaa kokonaisia ​​näyteryhmiä, antaa vyön toimia taianmukaisesti ja hakea ja luetteloida ne hännänpäästä. Kolmen hengen miehistö on valvannut vyötä debyyttinsä jälkeen, ja he käyvät läpi noin 750 000 yksilöä vuodessa. Aikaisemmin Smithsonianin viiden miljoonan yksilöllisen herbaarioluettelo on kokonaan verkossa.

Jokaiselle näytteelle on merkitty perusteellinen henkilöllisyyskortti, joka antaa tietoja sen alkuperästä sekä olennaisia ​​tilastotietoja. Näiden korttien sisältö on kopioitu ja ladattu digitaalisten kuvien rinnalla, mikä tarjoaa kattavan kuvan jokaisesta kokoelman esineestä niille, joilla on taipumus mennä etsimään.

Smithsonianin digitalisoidussa kasvitieteellisessä arkistossa korkearesoluutioiset kuvat näytteistä yhdistetään näihin kiinnitettyjen kätevien tunnistemerkkien transkriptioilla. Smithsonianin digitalisoidussa kasvitieteellisessä arkistossa korkearesoluutioiset kuvat näytteistä yhdistetään näihin kiinnitettyjen kätevien tunnistemerkkien transkriptioilla. (Kansallinen luonnontieteellinen museo)

"Se tekee kokoelmastamme kaikkien saatavilla, joilla on tietokone ja Internet-yhteys", sanoo museon kasvitieteellinen puheenjohtaja Laurence Dorr, "joka on upea vastaamaan tiettyihin kysymyksiin." Silti Dorr huomasi, että hän ei pystynyt ravistamaan käyttämättömän potentiaalin tunnetta. . Toki, valtavia määriä näyteaineistoa oli nyt verkkoyhteisön saatavilla, mutta sen analysointi kokonaisuutena oli edelleen mielikuvitusta. Tiettyjen yksilöiden ja pienten yksilöryhmien etsiminen oli tarpeeksi helppoa, mutta Dorr pohti, onko olemassa tapa hyödyntää tietoja johtopäätösten tekemiseksi tuhansista näytteistä. ”Mitä voit tehdä näillä tiedoilla?” Hän muistelee ihmetteleen. Adam Metallo -niminen mies antoi pian vakuuttavan vastauksen.

Metallo, Smithsonianin digitointiohjelmatoimiston virkamies, oli osallistunut konferenssiin, jossa tekninen jättiläinen NVIDIA - PC-pelaajien kulta kaikkialla - esitteli seuraavan sukupolven grafiikkaprosessointiyksiköitä tai GPU: ita. Metallo oli etsimässä tapoja parantaa Smithsonianin 3D-digitaalisen renderoinnin ominaisuuksia, mutta se oli suurelta osin riippumaton informaatiomestari, joka kiinnitti hänen huomionsa ja pysyi hänen kanssaan. Hänelle kerrottiin, että luoden dynaamisia, erittäin uskollisia 3D-visioita, NVIDIA: n GPU: t sopivat hyvin ison datan analysointiin. Erityisesti täydennetyt GPU: t olivat juuri sitä, mitä tarvittiin intensiiviseen digitaalisen kuvion tunnistukseen; monet koneoppimisalgoritmi oli optimoitu NVIDIA-alustalle.

Metallo oli hetkessä kiehtova. Tällä "syväoppivalla" tekniikalla, joka on jo otettu käyttöön niche-aloilla, kuten itse ajavien autojen kehittämisessä ja lääketieteellisessä radiologiassa, oli suuri potentiaali museoiden maailmalle - joka, kuten Metallo huomauttaa, on "suurin ja vanhin aineisto, jolla meillä on nyt pääsy on.”

”Mitä se tarkoittaa isoille aineistoille, joita luomme Smithsonianilla digitalisoinnin kautta?” Metallo halusi tietää. Hänen kysymyksensä kuvasi täydellisesti Laurence Dorria, ja kun nämä kaksi yhdistyivät, kipinät alkoivat lentää. "Kasvitiedekokoelma oli yksi suurimmista kokoelmista, joissa viimeksi työskentelimme", Metallo muistaa. Yhteistyö ehdotti itseään.

Kun monet koneoppimismuodot vaativat, että tutkijat merkitsevät tärkeimmät matemaattiset merkinnät analysoitavissa kuvissa - hieno prosessi, joka merkitsee tietokoneen käden pitämistä -, nykyajan syvän oppimisen algoritmit voivat opettaa itselleen, mitä merkkejä on etsittävä työpaikalle, säästääkseen aikaa ja oven avaaminen laajemmille tiedusteluille. Siitä huolimatta, Smithsonian-erityisen syväoppimisohjelman kirjoittaminen ja sen kalibrointi erillisiin kasvitieteellisiin tutkimuskysymyksiin oli hankala asia - Dorr ja Metallo tarvitsivat tietotieteilijöiden apua visionsa toteuttamiseksi.

Tietotieteilijät laativat koulutusnäytteet hermostoverkolle Paul Frandsenin muistamana aikana Tietotieteilijät laativat koulutusnäytteet hermostoverkolle Paul Frandsenin muistaman "kylmän tammikuun päivän" aikana. (Kansallinen luonnontieteellinen museo)

Yksi asiantuntijoista, jotka he ottivat alukselle, oli Smithsonianin tutkimustietotekijä Paul Frandsen, joka tunnusti heti mahdollisuudet luoda NVIDIA GPU-käyttöinen hermoverkko kasvitieteelliselle kokoelmalle. Frandsenille tämä projekti symboloi avainasemassa ensimmäistä askelta kohti upeaa ja tutkimatonta polkua. Pian hän sanoo: ”Alamme etsiä morfologisia kuvioita globaalissa mittakaavassa, ja pystymme vastaamaan näihin todella suuriin kysymyksiin, jotka perinteisesti olisivat vaatineet tuhansia tai miljoonia inhimillituntia kirjallisuuden ja asioiden luokittelu. Pystymme käyttämään algoritmeja auttamaan meitä löytämään nuo mallit ja oppimaan lisää maailmasta. ”

Juuri julkaistut tulokset ovat silmiinpistävä todiste konseptista. Tutkimuksen kasvatti Eric Schuettpelzin sekä tietotekijöiden Paul Frandsenin ja Rebecca Dikow'n johtama yhdeksän ryhmä, jonka tavoitteena on vastata kahteen laajaan kysymykseen koneoppimisesta ja herbaariumista. Ensimmäinen on, kuinka tehokas koulutettu hermoverkko voi olla lajittelemalla elohopealla värjättyjä näytteitä tyhjentämättömistä. Toinen, paperin kohokohta, on kuinka tehokas tällainen verkko voi erottaa kaksi pinnallisesti samanlaista kasviperhettä - nimeltään saniainen-liittolaisia ​​perheitä Lycopodiaceae ja Selaginellaceae .

Ensimmäisessä kokeessa edellytettiin, että ryhmä käy läpi tuhansia näytteitä itse etukäteen ja totesi lopullisesti, mitkä niistä olivat näkyvästi saastuneet elohopealla (vanhentuneiden kasvitieteellisten säilytystekniikoiden jäljellä). He halusivat olla varmoja, että he tiesivät 100 prosenttia varmuudella, mitkä olivat tahratut ja mitkä eivät olleet - muuten ohjelman tarkkuuden arviointi ei olisi mahdollista. Joukkue valitsi kirsikkavalinnoista lähes 8000 kuvaa puhtaista näytteistä ja 8000 muuta värjättyä näytettä tietokoneen kouluttamiseksi ja testaamiseksi. Siihen mennessä, kun he olivat päättäneet säätää hermoverkkoparametreja ja vetäneet kaiken ihmisen avun, algoritmi luokitteli näytteet, joita se ei ollut ennen nähnyt, 90 prosentin tarkkuudella. Jos kaikkein epäselvimmät näytteet - esimerkiksi ne, joissa värjäytyminen oli minimaalista ja / tai erittäin heikkoa - heitettiin pois, luku nousi 94 prosenttiin.

Tämä tulos viittaa siihen, että syväoppio-ohjelmistot voisivat pian auttaa kasvitieteilijöitä ja muita tutkijoita välttämään ajan tuhlaamista työläisille lajittelutehtäville. "Ongelmana ei ole se, että ihminen ei pysty selvittämään, värjätäänko näyte elohopealla vai ei", Metallo selventää, vaan pikemminkin, että "on vaikea lajitella manuaalisesti ja selvittää, missä saastuminen esiintyy", eikä se ole järkevää tee niin ajanhallinnan näkökulmasta. Onneksi koneoppimisesta voi muodostua merkittävä aikavaikutus muutaman päivän nopeaseen automatisoituun analyysiin.

Näytteiden kerääminen kerrallaan vaatii paljon energiaa ja vaikeuttaa laajojen johtopäätösten tekemistä. Nyt iso data-analytiikka tarjoaa museoille uusia tapoja lähestyä kokoelmiaan. Näytteiden kerääminen kerrallaan vaatii paljon energiaa ja vaikeuttaa laajojen johtopäätösten tekemistä. Nyt iso data-analytiikka tarjoaa museoille uusia tapoja lähestyä kokoelmiaan. (Arnold arboretum)

Tutkimuksen lajien erotteluosa on vieläkin jännittävämpi. Tutkijat kouluttivat ja testasivat hermoverkkoa noin 9 300 kermosmosilla ja 9 100 piikkikuonanäytteellä. Kuten värjäyskokeessa, noin 70 prosenttia näistä näytteistä käytettiin alkuperäiseen kalibrointiin, 20 prosenttia käytettiin hienosäätöön ja viimeisiä 10 prosenttia käytettiin virallisen tarkkuuden arviointiin. Kun koodi oli optimoitu, tietokoneen onnistumisaste kahden ryhmän erottamisessa oli 96 prosenttia - ja lähes täydellinen 99 prosenttia, jos vaikeimmat näytteet jätetään pois.

Eräänä päivänä Frandsen spekuloi, että tällaiset ohjelmat voisivat hoitaa alustavan näytteen luokittelun museoissa ympäri maailmaa. "En missään nimessä usko, että nämä algoritmit tekevät mitään korvaamaan kuraattorit", hän toteaa nopeasti, "mutta uskon sen sijaan, että ne voivat auttaa kuraattoreita ja systematiikkaan osallistuvia ihmisiä tuottavuuden parantamisessa, jotta he voivat tehdä työnsä paljon nopeammin."

Neuraaliverkoston menestys tässä tutkimuksessa avaa tietä myös tieteellisten hypoteesien nopealle testaamiselle laajoissa kokoelmissa. Dorr näkee ryhmän havainnoissa mahdollisuuden suorittaa laajoja morfologisia vertailuja digitalisoiduista näytteistä - vertailut, jotka voivat johtaa merkittäviin tieteellisiin läpimurtoihin.

Tämä ei tarkoita, että syväoppimisesta tulee hopea luoti tutkimuksessa kautta linjan. Stanfordin Mark Algee-Hewitt huomauttaa, että "on lähes mahdotonta rekonstruoida miksi ja miten hermoverkko tekee päätöksensä", kun se on ehdollistettu; tietokoneohjelmille jätettyjen määritysten tulee aina olla yksinkertaisia ​​ja todennettavia luonteeltaan, jotta niihin voidaan luottaa.

"Ilmeisesti", sanoo Dorr, itsenäinen tietokoneohjelma, joka "ei aio testata geneettisiä suhteita, sellaisia" - ainakin milloin tahansa lähitulevaisuudessa. ”Mutta voimme alkaa oppia ominaisuuksien jakautumisesta maantieteellisen alueen tai taksonomisen yksikön mukaan. Ja siitä tulee todella voimakas. ”

Enemmän kuin tämä, tämä tutkimus on hyppy-kohta. Nyt on selvää, että syväoppimisteknologialla on suuri lupaus tutkijoille ja muille tutkijoille ympäri maailmaa sekä utelmalle yleisölle, josta he tuottavat tietoa. Jäljellä on tiukka jatkotyö.

"Tämä on pieni askel", Frandsen sanoo, "mutta se vaihe, joka todella kertoo meille, että nämä tekniikat voivat toimia digitoiduissa museonäytteissä. Olemme innostuneita perustamaan vielä useita projekteja seuraavien kuukausien aikana yrittääksemme testata sen rajoja hiukan enemmän. ”

Kuinka keinotekoinen älykkyys voi mullistaa arkistomuseomuseoksen