https://frosthead.com

Kuinka Margaret Dayhoff toi modernin tietojenkäsittelytekniikan biologiaan

Vuonna 1984 National Biomedical Research Foundation käynnisti ilmaisen online-tietokannan, joka sisälsi yli 283 000 proteiinisekvenssiä. Nykyään proteiinitietoresurssi antaa tutkijoille ympäri maailmaa ottaa tuntematonta proteiinia, vertaa sitä tuhansiin tietokantaan tunnettuihin proteiineihin ja määrittää tapoja, joilla se on samanlainen ja erilainen. Näistä tiedoista he voivat nopeasti ja tarkasti päätellä proteiinin evoluutiohistorian ja sen suhteen elämän eri muotoihin.

Tämän massiivisen online-tietokannan nöyrät alkuperät alkavat kauan ennen Internetiä. Kaikki alkoi proteiinisekvenssien ja rakenteen atlasista, 1965 painetusta kirjasta, joka sisälsi 65 silloinkin tunnettuja proteiinisekvenssejä, jonka oli laatinut Margaret Dayhoff -nimi. Dayhoff sovelsi Atlasansa luomiseen huipputeknistä tietotekniikkaa löytääkseen ratkaisuja biologisiin kysymyksiin, auttaen avaamaan uutta alaa, jota kutsumme nyt bioinformatiikkaksi. Alun perin kemisti, Dayhoff valjasti toisen maailmansodan jälkeisen tietotekniikan aikakauden uudet ja kehittyvät tekniikat pioneerityökaluille, joita kemikot, biologit ja tähtitieteilijät voisivat käyttää poikkitieteellisessä tutkimuksessa maan elämän alkuperistä.

Dayhoff (silloin Margaret Oakley) syntyi Philadelphiassa 11. maaliskuuta 1925 Ruth Clarkille, lukion matematiikan opettajalle, ja Kenneth Oakleylle, pienyrityksen omistajalle. Kymmenen vuotiaana hänen perheensä muutti New Yorkiin. Siellä hän kävi julkisissa kouluissa, tullessaan lopulta Bayside High -yrityksen valedictorianiksi vuonna 1942. Hän osallistui New Yorkin yliopiston Washington Square -opistoon apurahaksi, valmistuessaan matematiikan magna cum laude -sovellukseen vain kolme vuotta myöhemmin vuonna 1945.

Samana vuonna Dayhoff aloitti Columbian yliopistossa saadakseen tohtorin tutkinnon kvantikemiaksi merkittävä kemisti ja toisen maailmansodan operaatioiden tutkija George Kimball. Hänen hyväksymisensä oli toistaiseksi harvinaisuus. Toisen maailmansodan jälkeen tiedettä aloitti enemmän miehiä, ja kemiasta tuli entistä enemmän miesvaltaisempaa kuin edellisen vuosikymmenen aikana. Kemian tohtoritutkinnon suorittaneiden naisten osuus vain viidestä prosentista oli kahdeksan prosenttia.

Dayhoffin yliopisto-aikana Columbia oli laskenta-ala laskennalliselle tekniikalle. Se kehui ensimmäisistä laskentalaboratorioista Yhdysvalloissa, ja vuonna 1945 siitä tuli IBM Watsonin tieteellinen laboratorio, jota johti tähtitieteilijä WJ Eckert. Watson-laboratorio toimi ensin liittolaisten laskentakeskuksena toisen maailmansodan viimeisinä kuukausina. Sodan jälkeen siitä tuli sivusto joidenkin ensimmäisten supertietokoneiden, kuten Selective Sequence Electronic Calculator (SSEC), kehittämiseen, jota Eckert käytti myöhemmin laskeakseen kuun kiertoradat Apollo-operaatioille.

Tämän tekniikan ollessa käden ulottuvilla, Dayhoff yhdisti kiinnostuksensa kemiaan atk-koneiden avulla tapahtuvaan tietojenkäsittelyyn - lähinnä varhaisiin digitaalisiin tietokoneisiin. Koneet antoivat Dayhoffin automatisoida laskelmansa, tallentaen algoritmin yhteen sarjaan kortteja ja tietoja toiseen. Koneen avulla hän pystyi käsittelemään laskelmat paljon nopeammin ja tarkemmin kuin käsin.

Dayhoffin erityinen mielenkiintoinen kohde oli polysykliset orgaaniset yhdisteet, jotka ovat molekyylejä, jotka koostuvat kolmesta tai useammasta atomista, jotka ovat liittyneet läheiseen renkaaseen. Hän käytti reikäkorttilaitteita suorittamaan suuren määrän laskelmia molekyylien resonanssienergioista (molekyylin tietyn tilan potentiaalienergian ja keskimääräisen tilan välinen ero) määrittämään molekyylisitoutumisen todennäköisyys ja sidosetäisyydet.

Dayhoff valmistui tohtorintutkinnollaan kvanttikemiasta vain kolmessa vuodessa. Tutkimus, jonka hän suoritti jatko-opiskelijana, julkaistiin Kimballin avustajana vuonna 1949 Journal of Chemical Physics -lehdessä yksinkertaisella otsikolla Lävistyskortin laskenta resonanssienergioista.

Myös vuonna 1948 Dayhoff meni naimisiin kokeellisen fysiikan opiskelijan Edward Dayhoffin kanssa, jonka hän oli tavannut Columbiassa. Vuonna 1952 pari muutti Washington DC: hen, missä Edward aloitti tehtävässään National Bureau of Standards -yrityksessä ja Dayhoff synnytti ensimmäisen kahdesta tyttärestään Ruthista. Dayhoff lopetti pian tutkimuksensa tullakseen Ruthin ja hänen nuoremman tytärnsä Judithin kotiamaksi, paitsi kahden vuoden jatkotutkinnon suorittamiseksi Marylandin yliopistossa.

Kun hän palasi tutkimukseen ja alkoi hakea apurahoja työn rahoittamiseksi vuonna 1962, hänet koettiin shokissa. Kansalliset terveyslaitokset hylkäsivät avustushakemuksen, jossa Dayhoff mainittiin tutkijaksi selityksellä, että ”[Dayhoff] on ollut todella intiimissä kosketuksessa jo jonkin aikaa ... tällä monimutkaisella ja nopeasti etenevällä alueella”, kuten historioitsija Bruno Strasser kirjoittaa hänen tulevan kirjansa Collecting Experiments: Making Big Data Biology . Tällainen ylämäkeen kiipeily naisille, jotka ovat viettäneet aikaa lasten kasvattamiseen, on vain yksi tapa, jolla tieteelliset instituutiot estivät - ja estävät edelleen - naisten etenemistä.

Huolimatta siitä, että NIH: lla ei ollut tukea, Dayhoff oli aloittamassa uransa seuraavan vuosikymmenen. Vuonna 1960 hän hyväksyi kohtalokkaan kutsun Robert Ledleyltä, uraauurtavalta biofyysikolta, jonka hän tapasi aviomiehensä kautta, liittyä hänen luokseen National Biomedical Research Foundation -säätiöön Silver Springissa, Marylandissa. Ledley tiesi, että Dayhoffin tietotaidot olisivat tärkeitä säätiön tavoitteelle yhdistää tietojenkäsittelyn, biologian ja lääketieteen alat. Hän toimi hänen apulaisjohtajanaan 21 vuotta.

Kun kerran Marylandissa, Dayhoff sai vapaan haltuunsa Georgetownin yliopiston upouudessa IBM 7090 -koneessa. IBM-järjestelmä on suunniteltu käsittelemään monimutkaisia ​​sovelluksia, laskennanopeudet kuusi kertaa nopeammat kuin aiemmissa malleissa. Tämä nopeus oli saavutettu korvaamalla hitaampi, mahtomampi tyhjiöputkitekniikka nopeammilla, tehokkaammilla transistoreilla (komponentit, jotka tuottavat tietokoneiden 1 ja 0). Suurkehystä käyttämällä Dayhoff ja Ledley aloittivat peptidisekvenssien etsimisen ja vertaamisen heidän kirjoittamiinsa FORTRAN-ohjelmiin yrittäessään koota osittaisia ​​sekvenssejä kokonaiseksi proteiiniksi.

IBM 7090 IBM 7090 -käyttäjäkonsoli NASA Ames-tutkimuskeskuksessa vuonna 1961 kahdella pankilla IBM 729 -magneettisia nauha-asemia. (NASA)

Dayhoffin ja Ledleyn sitoutuminen tietokoneanalyysin soveltamiseen biologiaan ja kemiaan oli epätavallista. "Tilastollisen analyysin kulttuuri, puhumattakaan digitaalisesta laskennasta, oli täysin vieras suurimmalle osalle [biokemiareista]", Strasser selittää haastattelussa Smithsonian.com-sivustolle . "Jotkut jopa ylpeivät siitä, etteivät he ole" teoreetikkoja ", jolloin he ymmärsivät data-analyysin matemaattisten mallien avulla."

Yksi tieteenala, jossa Dayhoffin tietokonetaitoa arvostettiin enemmän, oli kuitenkin tähtitiede. Tämä kiinnostus laskentaan johtui osittain WJ Eckhartista, joka vuonna 1940 oli käyttänyt IBM-reikäkorttilaitteita ennustamaan planeettojen kiertoratoja. Ja 1960-luvulla amerikkalainen kiinnostus avaruustutkimukseen oli täydessä vauhdissa, mikä tarkoitti rahoitusta NASA: lle. Marylandin yliopistossa Dayhoff tapasi spektroskopisti Ellis Lippincottin, joka sai hänet kuuden vuoden yhteistyöhön Carl Saganin kanssa Harvardissa vuonna 1961. Heistä kolme kehitti termodynaamiset mallit aineen kemiallisesta muodosta ja Dayhoff suunnitteli tietokoneohjelman, joka voisi laskea kaasujen tasapainopitoisuudet planeettaympäristössä.

Dayhoffin ohjelmalla hän, Lippincott ja Sagan pystyivät valitsemaan analysoitavan elementin, joka antoi heille mahdollisuuden tutkia monia erilaisia ​​ilmakehän koostumuksia. Viime kädessä he kehittivät ilmakehän mallit Venuselle, Jupiterille, Marsille ja jopa maan alkeelliselle ilmakehälle.

Tutkiessaan taivasta, Dayhoff otti esiin myös kysymyksen, jota tutkijat olivat tutkineet ainakin 1950-luvulta lähtien: mikä on proteiinien tehtävä? Proteiinien sekvensointi oli keino saada vastaus, mutta yksittäisten proteiinien sekvensointi oli erittäin tehotonta. Dayhoff ja Ledley suhtautuivat toisin. Sen sijaan, että analysoitaisiin proteiineja eristettynä, he vertasivat eri kasvi- ja eläinlajeista peräisin olevia proteiineja. "Vertaamalla saman proteiinin sekvenssejä eri lajeissa voitaisiin havaita, mitkä sekvenssin osat olivat aina identtisiä kaikissa lajeissa, hyvä osoitus siitä, että sekvenssin tämä osa oli ratkaisevan tärkeä proteiinin hyväksi", Strasser sanoo.

Dayhoff koetti syvemmälle tutkien proteiinien yhteistä historiaa. Hän ei analysoinut paitsi lajeittain samoja osia, myös niiden variaatioita. "He ottivat nämä erot lajien välisten evoluutioetäisyyksien mittana, joka antoi heidän mahdollisuuden rekonstruoida fylogeneettisiä puita", Strasser selittää.

Dayhoff, joka on aina valmis hyödyntämään uuden tekniikan voimaa, kehitti atk-menetelmiä proteiinisekvenssien määrittämiseksi. Hän suoritti tietokoneanalyysin monien eri lajien proteiineista, Candida-sienestä valaaseen. Sitten hän käytti heidän eroavuuksiaan määrittääkseen esi-isäsuhteen. Vuonna 1966 Dayhoff loi Richard Eckin avulla fylogeneettisen puun ensimmäisen rekonstruktion.

Dayhoff esitteli vuonna 1969 amerikkalaisessa tieteellisessä artikkelissa ”Protein Evolution Computer Analysis of Protein Evolution” yhden näistä puista tutkimuksineen, joissa käytetään tietokoneita proteiinien sekvensointiin. "Jokainen vakiintunut proteiinisekvenssi, jokainen valaistu evoluutiomekanismi, jokainen paljastettu tärkein fylogeneettisen historian innovaatio parantaa ymmärrystämme elämänhistoriasta", hän kirjoitti. Hän yritti näyttää biotieteiden yhteisölle tietokoneistettujen mallien mahdollisuudet.

Hänen seuraava tavoitteensa oli kerätä kaikki tunnetut proteiinit yhteen paikkaan, josta tutkijat voivat löytää sekvenssejä ja verrata niitä muihin. Toisin kuin tänään, kun on helppoa kutsua lähteitä sähköiseen tietokantaan, jossa on vain avainsana, Dayhoff joutui hakemaan fyysisiä lehtiä löytääkseen etsimänsä proteiinit. Monissa tapauksissa se tarkoitti tutkijatoverin työn tarkistamista virheiden varalta. Jopa tietokoneen avulla sekvenssien keruu ja luettelointi vaativat runsaasti aikaa ja vaativille tieteellisille silmille.

Kaikki eivät nähneet arvoa tekemisessään. Muille tutkijoille Dayhoffin työ muistutti pikemminkin 1800-luvun luonnontieteellisen historian keruuta ja luettelointia kuin 1900-luvun tutkijan kokeellista työtä. "Luonnonvarojen kerääminen, vertaileminen ja luokittelu näytti monille kokeellisille biologille 1900-luvun jälkipuoliskolla vanhanaikaisena", Stasser sanoo. Hän viittaa Dayhoffiin "ulkopuoliseksi". "Hän osallistui kenttään, jota ei ollut olemassa ja jolla ei siten ollut ammatillista tunnustusta", hän sanoo.

Vuonna 1965 Dayhoff julkaisi ensimmäisen kokoelmansa 65 tunnetuista proteiineista proteiinisekvenssien ja rakenteiden atlasissa, joka on painettu versio hänen tietokannastaan. Lopulta tiedot siirrettiin magneettinauhaan, ja nyt se elää verkossa, missä tutkijat jatkavat hänen tietojensa käyttöä löytääkseen tuhansia lisää proteiineja. Muut biolääketieteelliset tietokannat ovat liittyneet petostentorjuntaan, mukaan lukien Protein Data Bank, vuonna 1971 käynnistetty yhteistyöhakuinen proteiini- ja nukleiinihappojen kokoelma, ja GenBank, geenisekvenssitietokanta, joka avattiin vuonna 1982. Dayhoff aloitti tieteellisen vallankumouksen.

"Nykyään jokainen kokeellisen biologian julkaisu sisältää yhdistelmän uusia kokeellisia tietoja ja päätelmiä, jotka on tehty vertailusta muihin julkiseen tietokantaan saataville tiedoille. Tämä lähestymistapa oli Dayhoffin aloittama puoli vuosisataa sitten", Strasser sanoo.

Bioinformatiikan kasvaessa keräyksen ja laskennan tehtävät kuuluivat suurelta osin naisille. Dayhoffin yhteistyökumppanit Atlasissa olivat kaikki naisia ​​Ledleyä lukuun ottamatta. Kuten NASAn 1960-luvun naisten ”tietokoneet” ja toisen maailmansodan naispuoliset rikkinäiset, nämä naiset työnnettiin pian tieteellisen käytännön reunalle. Viitaten ”ENIAC-tyttöihin”, jotka ohjelmoivat ensimmäisen digitaalisen, yleiskäyttöön tarkoitetun tietokoneen, tietojenkäsittelyn historioitsija Jennifer Light kirjoittaa, että ”naiset harjoittivat ennennäkemätöntä työtä juuri sellaisen matalan aseman ammattiluokituksen rajoissa”.

Lois T. Hunt, joka työskenteli hänen kanssaan Atlas- lehdessä, kirjoitti Dayhoffin elämäkerrassaan, että Dayhoff uskoi hänen tutkimuksensa Maan alkeellisesta ilmakehästä antavan hänelle ”elämän muodostumiseen tarvittavat yhdisteet”. Tämä, ehkä jopa enemmän kuin tietojenkäsittely, on se, joka sitoo Dayhoffin tieteellisen tutkimuksen erilliset osat toisiinsa. Pienestä proteiinista valtavaan ilmakehään Dayhoff haki elämän syntymisen salaisuuksia tällä planeetalla. Vaikka hän ei avannut niitä kaikkia, hän antoi modernille tiedelle työkalut ja menetelmät tutkimuksen jatkamiseen.

Kuinka Margaret Dayhoff toi modernin tietojenkäsittelytekniikan biologiaan