https://frosthead.com

Kako je Margaret Dayhoff prinesla sodobno računalništvo v biologijo

Leta 1984 je Nacionalna fundacija za biomedicinska raziskovanja zagnala brezplačno spletno bazo podatkov, ki vsebuje več kot 283.000 beljakovinskih zaporedij. Danes informacijski vir o beljakovinah omogoča znanstvenikom po vsem svetu, da vzamejo neznan protein, ga primerjajo s tisoči znanih beljakovin v bazi podatkov in določijo načine, kako so podobni in drugačni. Iz teh podatkov lahko hitro in natančno razberemo evolucijsko zgodovino proteina in njegovo povezanost z različnimi oblikami življenja.

Skromni izvor te obsežne spletne baze podatkov se začne že dolgo pred internetom. Vse se je začelo z Atlasom beljakovinskega zaporedja in strukture, tiskane knjige iz leta 1965, ki vsebuje 65 takrat znanih beljakovinskih sekvenc, ki jih je sestavila ženska po imenu Margaret Dayhoff. Da bi Dayhoff ustvaril svoj Atlas, je uporabil vrhunske računalniške tehnologije, da bi našel rešitve za biološka vprašanja, kar nam je pomagalo pri rojstvu na novem področju, ki mu danes pravimo bioinformatika. Dayhoff je bil prvotno kemik uporabil nove in razvijajoče se tehnologije računalniške dobe po drugi svetovni vojni s pionirskimi orodji, ki bi jih kemiki, biologi in astronomi lahko uporabili pri meddisciplinarnem preučevanju izvora življenja na Zemlji.

Dayhoff (takrat Margaret Oakley) se je 11. marca 1925 rodila v Filadelfiji Ruth Clark, srednješolski učitelj matematike, in Kenneth Oakley, lastnik malega podjetja. Pri desetih letih se je njena družina preselila v New York City. Tam je obiskovala javne šole in sčasoma postala valedictorianka Bayside High leta 1942. Na štipendiji je obiskovala Washington Square College iz newyorške univerze, diplomirala je magna cum laude matematiko le tri leta pozneje leta 1945.

Istega leta je Dayhoff vpisala univerzo Columbia in doktorirala iz kvantne kemije pod mentorstvom uglednega kemika in raziskovalca operacij druge svetovne vojne Georga Kimballa. Njen sprejem je bil zaenkrat redkost. Po drugi svetovni vojni se je v znanosti vpisalo več moških, kemija pa je postala še bolj moška kot v prejšnjem desetletju, le pet odstotkov doktorjev kemije je žensk, kar je osem odstotkov.

V času Dayhoffa na univerzi je bila Columbia žarnica za računalniško tehnologijo. Pohvalila se je z nekaterimi prvimi računalniškimi laboratoriji v ZDA in leta 1945 je postala dom znanstvenega laboratorija IBM Watson, ki ga je vodil astronom WJ Eckert. Laboratorij Watson je najprej služil kot računalniški center zaveznikov v zadnjih mesecih druge svetovne vojne. Po vojni je postal mesto za razvoj nekaterih prvih superračunalnikov, vključno z elektronskim kalkulatorjem Selective Sequence Electronic, ki ga je Eckert pozneje uporabil za izračun lunarnih orbit za misije Apollo.

Dayhoff je s to tehnologijo na dosegu roke združila svoje zanimanje za kemijo in računalništvo s pomočjo strojev z luknjači - v bistvu zgodnjih digitalnih računalnikov. Stroji so Dayhoffu omogočili avtomatizacijo njenih izračunov, shranjevanje algoritma na en niz kartic in podatkov na drugo. S pomočjo stroja je izračune lahko obdelala veliko hitreje in natančneje kot ročno.

Dayhoffov poseben predmet zanimanja so bile policiklične organske spojine, ki so molekule, sestavljene iz treh ali več atomov, združenih v tesnem obroču. Za izvedbo velikega števila izračunov molekulskih resonančnih energij (razlika med potencialno energijo molekule v določenem stanju in povprečnim stanjem) je uporabila stroje z luknjači, da je določila verjetnost molekulskih vezi in razdalj vezi.

Dayhoff je z doktorskim študijem kvantne kemije diplomirala le v treh letih. Raziskava, ki se je je lotila kot podiplomska študentka, je bila objavljena leta 1949 s Kimbalom kot soavtorjem leta 1949 v reviji Chemical Chemical Physics pod preprostim naslovom Calculation Card Resonance Energy.

Dayhoff se je tudi leta 1948 poročil z Edwardom Dayhoffom, študentom eksperimentalne fizike, ki ga je spoznala v Columbii. Leta 1952 se je par preselil v Washington, DC, kjer je Edward zasedel delovno mesto v Nacionalnem uradu za standarde, Dayhoff pa mu je rodila prvo od dveh hčerk, Ruth. Dayhoff je kmalu opustil raziskovanje, da bi postala Ruth in njena mlajša hči Judith, ki sta ostala doma, razen dveletnega podoktorskega položaja na univerzi v Marylandu.

Ko se je leta 1962 vrnila k raziskovanju in začela prijavljati za štipendije za financiranje svojega dela, jo je dočakal šok. Nacionalni inštituti za zdravje so zavrnili prošnjo za dodelitev donacije, v kateri je Dayhoff naveden kot glavni preiskovalec, z obrazložitvijo, da je "[Dayhoff] že nekaj časa zunaj resnično intimnega stika ... s tem zapletenim in hitro napredujočim območjem", kot piše zgodovinar Bruno Strasser njegova prihajajoča knjiga Zbiranje eksperimentov: Making Big Data Biology . Takšen vzpon navkreber za ženske, ki so si vzele čas za vzgojo otrok, je le eden od načinov, ki jih znanstvene ustanove ovirajo in še naprej ovirajo pri napredovanju žensk.

Kljub pomanjkljivi podpori NIH-a je Dayhoff nameraval vstopiti v najbolj posledično desetletje svoje kariere. Leta 1960 je sprejela usodno povabilo Roberta Ledleya, pionirskega biofizika, ki ga je spoznala prek svojega moža, da se mu pridruži pri Nacionalni fundaciji za biomedicinsko raziskovanje v Silver Springu v Marylandu. Ledley je vedel, da bodo Dayhoffove računalniške spretnosti ključne za temeljni cilj združitve področij računalništva, biologije in medicine. 21 let bo opravljala funkcijo njegovega pridruženega direktorja.

Ko so v Marylandu imeli Dayhoff, je brezplačno uporabil popolnoma nov glavni okvir IBM 7090 Univerze Georgetown. Sistem IBM je bil zasnovan za ravnanje s kompleksnimi aplikacijami z računalniškimi hitrostmi šestkrat hitreje kot prejšnji modeli. To hitrost smo dosegli z nadomeščanjem počasnejših in bolj obremenjenih vakuumskih cevi s hitrejšimi, učinkovitejšimi tranzistorji (komponente, ki proizvajajo računalnike 1 in 0). Dayhoff in Ledley sta z mainframeom začela iskati in primerjati zaporedja peptidov s programi FORTRAN, ki so jih napisali sami, da bi poskušali sestaviti delne sekvence v popoln protein.

IBM 7090 Operacijska konzola IBM 7090 v Nasinem raziskovalnem centru Ames leta 1961 z dvema bankama pogonov z magnetnim trakom IBM 729. (NASA)

Dayhoffova in Ledleyjeva zaveza k uporabi računalniških analiz v biologiji in kemiji je bila nenavadna. "Kultura statistične analize, kaj šele digitalno računalništvo, je bila večini [biokemičarjev] popolnoma tuja, " razlaga Strasser v intervjuju za Smithsonian.com . "Nekateri so se celo ponovili, da niso" teoretiki ", zato so analizo podatkov razumeli s pomočjo matematičnih modelov."

Ena znanstvena disciplina, kjer je Dayhoffov računalniški pamet bolj cenil, pa je bila astronomija. Zanimanje za računalništvo je bilo deloma zahvaljujoč WJ Eckhartu, ki je leta 1940 uporabljal stroje z lupilnimi karticami IBM za napovedovanje planetarnih orbit. In v šestdesetih letih prejšnjega stoletja je bilo ameriško zanimanje za raziskovanje vesolja v polnem razmahu, kar je pomenilo financiranje za NASA. Dayhoff je na univerzi v Marylandu spoznal spektroskopsko službo Ellis Lippincott, ki jo je leta 1961 z Harlom Saganom na Harvardu spravila v šestletno sodelovanje. Trojica je razvila termodinamične modele kemične sestave snovi, Dayhoff pa je zasnoval računalniški program, ki je lahko izračunajo ravnotežne koncentracije plinov v planetnih atmosferah.

S programom Dayhoff sta si ona, Lippincott in Sagan lahko izbrala element za analizo, ki jima je omogočil raziskovanje številnih atmosferskih sestavkov. Navsezadnje so razvili atmosferske modele za Venero, Jupiter, Mars in celo prvinsko atmosfero Zemlje.

Dayhoff se je med raziskovanjem neba lotil tudi vprašanja, ki so ga raziskovali vsaj od petdesetih let prejšnjega stoletja: kakšna je funkcija beljakovin? Sekvenciranje beljakovin je bilo sredstvo za odgovor, toda zaporedje posameznih beljakovin je bilo zelo neučinkovito. Dayhoff in Ledley sta se lotila drugačnega pristopa. Namesto da bi beljakovine analizirali izolirano, so primerjali beljakovine, pridobljene iz različnih rastlinskih in živalskih vrst. "Če primerjamo sekvence istega proteina pri različnih vrstah, bi lahko opazili, kateri deli zaporedja so bili pri vseh vrstah vedno enaki, kar je dober pokazatelj, da je ta del zaporedja ključen za dobro beljakovin, " pravi Strasser.

Dayhoff je pognal globlje in iskal skupno zgodovino beljakovin. Analizirala je ne le dele, ki so bili med vrstami enaki, temveč tudi njihove različice. "Te razlike so vzeli kot merilo evolucijskih razdalj med vrstami, kar jim je omogočilo obnovo filogenetskih dreves, " pojasnjuje Strasserjeva.

Dayhoff, vedno pripravljen izkoristiti moč nove tehnologije, je razvil računalniške metode za določanje beljakovinskih zaporedij. Vodila je računalniško analizo beljakovin pri najrazličnejših vrstah, od glive candida do kita. Nato je uporabila njihove razlike, da je določila razmerja prednikov. Leta 1966 je Dayhoff s pomočjo Richarda Ecka ustvaril prvo rekonstrukcijo filogenetskega drevesa.

Dayhoff je v znanstvenem ameriškem članku iz leta 1969 "Računalniška analiza evolucije beljakovin" javnosti predstavil eno od teh dreves skupaj s svojimi raziskavami z uporabo računalnikov za zaporedje beljakovin. "Vsak vzorec proteinov, vsak evolucijski mehanizem, ki je osvetljen, vsaka nova novost v filogenetski zgodovini, ki bo razkrita, bo izboljšala naše razumevanje zgodovine življenja, " je zapisala. Skušala je življenjski skupnosti pokazati potencial računalniških modelov.

Njen naslednji cilj je bil zbrati vse znane beljakovine na enem mestu, kjer bi raziskovalci lahko našli sekvence in jih primerjali z drugimi. Za razliko od danes, ko je enostavno poklicati vire v elektronski bazi podatkov zgolj s ključno besedo, je Dayhoff moral iskati fizične dnevnike, da bi našel proteine, ki jih je iskal. V mnogih primerih je to pomenilo preverjanje napak sodelavcev raziskovalca zaradi napak. Tudi z uporabo računalnika je bilo za zbiranje in katalogizacijo zaporedja potrebno veliko časa in pronicljivo znanstveno pozornost.

Niso vsi videli vrednosti v tem, kar počne. Drugim raziskovalcem je Dayhoffovo delo bolj spominjalo na zbiranje in katalogiziranje naravne zgodovine 19. stoletja, ne pa na eksperimentalno delo znanstvenika 20. stoletja. "Zbiranje, primerjanje in razvrščanje narave je bilo mnogim eksperimentalnim biologom v drugi polovici 20. stoletja videti staromodno, " pravi Stasser. Dayhoffa označuje kot "zunanjega človeka". "Prispevala je na področje, ki ni obstajalo in s tem ni imelo strokovnega priznanja, " pravi.

Leta 1965 je Dayhoff prvič objavila svojo zbirko 65 znanih beljakovin v atlasu zaporedja in strukture beljakovin, tiskani različici njene baze. Sčasoma so se podatki preselili na magnetni trak in zdaj živi na spletu, kjer raziskovalci še naprej uporabljajo njene podatke, da bi našli tisoče več beljakovin. Društvu so se pridružile tudi druge biomedicinske baze podatkov, vključno s Protein Data Bank, skupnim zbiranjem beljakovinskih in nukleinskih kislin, ki so ga začele izvajati leta 1971, in GenBank, bazo podatkov o genetskem zaporedju, ki je bila predstavljena leta 1982. Dayhoff je začel znanstveno revolucijo.

"Danes vsaka posamezna publikacija v eksperimentalni biologiji vsebuje kombinacijo novih eksperimentalnih podatkov in sklepov, ki izhajajo iz primerjave z drugimi podatki, ki so na voljo v javni bazi podatkov, pristop, ki ga je Dayhoff začel pred pol stoletja, " pravi Strasser.

Z rastjo bioinformatike so naloge zbiranja in računanja v glavnem padle na ženske. Dayhoffove sodelavke v Atlasu so bile vse ženske razen Ledleyja. Tako kot ženske "računalniki" Nasine v šestdesetih letih prejšnjega stoletja in ženske šifranti druge svetovne vojne so tudi te ženske kmalu potisnile na rob znanstvene prakse. Če se sklicuje na "dekleta ENIAC", ki je programirala prvi digitalni računalnik splošnega pomena, zgodovinarka računalništva Jennifer Light piše, da "so ženske, ki so se ukvarjale z neprimerljivimi službami, zapisale, da so ravno v takih poklicnih klasifikacijah z nizkim statusom."

Lois T. Hunt, ki je z Atlanom sodelovala z Atlasom, je v svoji biografski skici o Dayhoffu zapisala, da Dayhoff verjame, da bi ji preiskava Zemljinega prvinskega ozračja lahko dala "spojine, potrebne za oblikovanje življenja." To je morda celo več kot Računalništvo je tisto, kar povezuje različne dele znanstvenega raziskovanja Dayhoffa. Od drobnih beljakovin do ogromne atmosfere je Dayhoff iskal skrivnosti nastanka življenja na tem planetu. Čeprav jih ni odklenila vseh, je sodobni znanosti dala orodja in metode za nadaljevanje iskanja.

Kako je Margaret Dayhoff prinesla sodobno računalništvo v biologijo