https://frosthead.com

Podatki o velikih podatkih so postali večji, saj IBM-ov Watson izpolnjuje Enciklopedijo življenja

Po 2.000 letih je vrhunska enciklopedija življenja na vrhuncu nove dobe, ki temelji na podatkih. Nepovratna sredstva Nacionalne znanstvene fundacije so bila dodeljena Enciklopediji življenja (EOL), IBM-u in tehnološkemu inštitutu Georgia. Dotacija bo omogočila obdelavo in navzkrižno indeksiranje ogromnih količin podatkov na način, ki bo omogočil prelomno znanost.

Sorodne vsebine

  • Predlagani novi sistem morskega rezervata ponuja Rosy Outlook tako za jastoga kot za ribiča jastoga

V 77. letu našega štetja je Pliny Starejši začel pisati prvo svetovno enciklopedijo Naravoslovna zgodovina. Vključeval je vse od astronomije do botanike do zoologije do antropologije in še več. Plinij je skušal vse, kar je lahko osebno zbral o naravnem svetu, združiti v eno samo pisno delo. V zadnjih 2000 letih je dolgo zaporedje znanstvenikov, ki jih je navdihnil Plinij, zasledovalo isto vizijo.

Plinij je v 36 zvezkih vključil 20.000 tem, vendar je naletel na omejitve tega, kar lahko posamezna oseba odkrije, posname in obdela v človeški življenjski dobi. Umrl je med izbruhom gore Vezuv, preden je lahko dokončno uredil svoj magnum opus. Tudi v svoji dobi ni bilo mogoče, da bi ena oseba prebrala vse knjige, se naučila vseh stvari in jih vse pojasnila svetu.

Kot so pozneje znanstveniki, uredniki in knjižničarji odkrili v svetu, ki z vsakim letom doda več pisnega znanja, tudi če bi lahko v eno stavbo shranili vse svetovne knjige in raziskave, je izziv, da vsem ustreznim informacijam omogočite dostop raziskovalci v času omejitev njihovega kratkega človeškega življenja.

EOL bi to lahko spremenila z uporabo najsodobnejših računskih moči za ločevanje zbirk bioloških podatkov. Projekt je brezplačna in odprta digitalna zbirka dejstev, člankov in multimedije o biotski raznovrstnosti, ena največjih na svetu. S sedežem v ustanovi Smithsonian in s svojimi 357 partnerji in ponudniki vsebin, vključno z univerzo Harvard in Novo knjižnico Aleksandrije v Egiptu, je EOL s 30.000 strani, ko se je lansiral leta 2008, povečal na več kot dva milijona, z 1, 3 milijona strani besedila, zemljevidov, video, avdio in fotografije ter podpira 20 jezikov.

"V Smithsonian sem prišel leta 2010 iz programske industrije, " pravi direktor EOL Bob Corrigan. "Eno od odkritij, ki sem ga prišel sem, je, da čeprav je IT povsod, v muzejski svet ni prodrl tako, kot je prodrl v komercialni svet. Še posebej v biologiji so bili najpomembnejši podatki zakopani v učbenike in preglednice. "

Kako se lahko biološki podatki v različnih oblikah združijo in pridobivajo za nova spoznanja o življenju na Zemlji? Kaj če bi podatke o, recimo, biotski raznovrstnosti metuljev v Afriki v desetletju združili s podatki o kmetijskih praksah in padavinah? Bi se lahko kaj novega naučili? Za to je potrebno nekaj večjega kot človeški možgani. Nekaj ​​podobnega kot IBM-ov superračunalnik Watson.

"IBM prispeva trud in dostop do različice [Watson-a], ki ni javno dostopna, " pravi Jennifer Hammock, programska direktorica pri EOL. "Tudi ljudje bodo delali na tem. IBM to počne kot stvarni prispevek. "

Watson je superračunalnik, ki ne drobi samo številk v velikih količinah. Uporablja umetno inteligenco, s katero lahko uporabniki postavljajo vprašanja v preprostem jeziku.

"Z uporabniškega vidika bi rekel, da pomeni, da je baza podatkov nekaj, do česar lahko pridete in postavite vprašanje, kot da bi šlo za človeka, " pravi Hammock. "Kot, mi lahko poveste, ali se ta vijolični metulj pojavlja v Afriki?"

"Če v katerem koli jeziku odgovorimo na preprosto vprašanje, predpostavljamo, da obstaja veliko znanj v zakulisju, " pravi Corrigan. "Tudi [beseda] vijolična, predpostavlja, da vemo, kaj je vijolična. Ali metulj, [računalnik] mora razumeti razliko med metuljem in moljem. Poleg tega imajo nabori podatkov različne načine razmišljanja o teh različnih izrazih. Vse te podatke je bilo težko pridobiti brez rozeta. In to je del čarovnije tega, kar počne EOL. "

Eno znanstveno vprašanje, ki ga partnerstvo EOL, IBM in Georgia Tech upa rešiti, je paradoks planktona.

Kot pravi Hammock, znanstveniki, ki delajo z računalniškimi simulacijami, "poskušajo modelirati, kaj se dogaja v oceanu, tako da pravijo, da sonce sije in alge rastejo. . . ima nekakšen približek, vendar zaradi računalniškega modela ekosistema ne morejo biti stabilni. Nekaj ​​časa gredo in se potem zrušijo. Ker so preveč preprosti. Upajo, da bodo, če bodo v svoji modelirani biosferi pokazali malo več raznolikosti, postali bolj stabilni. . . . paradoks je: kako obstaja oceanska biosfera? Zakaj se ne zruši? "

"Ljudje sedijo na podatkih, " pravi Corrigan. "Po vsem planetu obstajajo neverjetni rezervoarji meritev biotske raznovrstnosti. Dobivam veliko telefonskih klicev ljudi, ki sedijo zaradi teh podatkov in želijo pomoč pri njihovem širšem kontekstu. Pomembno je, ker smo v dirki za preučevanje tega planeta in spoznavanje, kako naš razvoj poudarja naše zelo omejene vire. . . Smithsonian lahko igra vlogo pri povečanju znanja iz vseh teh virov in je resnična sila za njegovo širjenje. "

Četrtina dolarja v višini 1 milijona dolarjev bo dobila Smithsonian za svoj del dela, vendar EOL vključuje še veliko drugih akterjev. Nekateri razvijalci so v Egiptu; izobraževalna skupina ima sedež iz Harvarda; in enota španskega jezika je v Mexico Cityju.

Vsi podatki EOL bodo še naprej javno dostopni ali licencirani pod Creative Commons. Raziskave in podatki naj bi bili javno dostopni in se ne skrivajo za obrambnim zidom.

"To so zelo stare sanje, " pravi Hammock. "En človek se tega verjetno ne more vsega naučiti. Težko je vse postaviti na eno mesto, kjer se lahko zavestno preveri sam. Toda zdaj imamo računalnike. "

Plinij bi bil bodisi zelo vesel bodisi zelo ljubosumen.

Podatki o velikih podatkih so postali večji, saj IBM-ov Watson izpolnjuje Enciklopedijo življenja