https://frosthead.com

Kako bi umetna inteligenca lahko spremenila raziskave arhivskega muzeja

Ko razmišljate o umetni inteligenci, polje botanike verjetno ni najbolj v glavah. Ko slikate nastavitve za vrhunske računalniške raziskave, stoletja stari muzeji morda niso na vrhu seznama. In vendar, pravkar objavljen članek v reviji Biodiversity Data Journal kaže, da se nekatere najbolj vznemirljive in najpomembnejše inovacije v strojnem učenju dogajajo le pri nacionalnem herbariju Nacionalnega naravnega muzeja v Washingtonu, DC

V prispevku, ki prikazuje, da digitalna nevronska omrežja lahko ločijo med dvema podobnima družinama rastlin s hitrostjo natančnosti več kot 90 odstotkov, pomeni, da bodo znanstveniki in akademiki lahko napredovali v vseh vrstah ust. Študija se opira na programsko opremo, temelječo na algoritmih globokega učenja, ki računalniškim programom omogočajo, da nabirajo izkušnje na podoben način, kot to počnejo človeški strokovnjaki, in vsakič, ko se zaženejo, izboljšujejo svojo igro. Kmalu bi ta tehnologija lahko omogočila primerjalne analize milijonov vzorcev iz vseh koncev sveta - predlog, ki bi prej zahteval neustavljivo količino človeškega dela.

"Ta usmeritev raziskav kaže veliko obljube, " pravi profesor Stanforda Mark Algee-Hewitt, vidni glasnik gibanja za digitalne humanistične vede in pomočnik direktorja fakultete v univerzitetnem Centru za prostorsko in besedilno analizo. "Te metode nam lahko dajo ogromno informacij o tem, kaj zbirke vsebujejo, " pravi in ​​"s tem omogočajo dostop do teh podatkov."

Te nove ugotovitve temeljijo na dolgoletnem delu na Smithsonian Institution-u za sistematično digitalizacijo njegovih zbirk za akademski in javni dostop do spleta in predstavljajo izjemno interdisciplinarno srečanje pameti: botaniki, strokovnjaki za digitalizacijo in znanstveniki s podatki so morali pri uresničevanju teh rezultati na svetlobo.

Zgodba se začne oktobra 2015, ko je namestitev aparata s kamero in tekočim trakom pod Prirodoslovni muzej močno poenostavila prizadevanja za digitalizacijo Smithsonianove botanične zbirke. Namesto da bi morali ročno skenirati vsako stisnjeno rožo in grušč trave v svojem skladišču, bi lahko delavci zdaj postavili v vrsto celote vzorcev, pustili, da pas deluje svoje čarovnije, in jih na koncu repa priklicali in ponovno katalogizirali. Tričlanska posadka je od prvega leta nadzirala pas, vsako leto pa gredo skozi približno 750.000 primerkov. Pred kratkim bo Smithsonianov herbarijski popis, močan pet milijonov primerkov, povsem na spletu.

Vsak vzorec je označen s temeljito identifikacijsko kartico, ki vsebuje informacije o poreklu in ključne statistične podatke. Vsebina teh kartic je bila prepisana in naložena skupaj z digitalnimi slikami, kar omogoča celovit pregled vsakega predmeta v zbirki za tiste, ki so nagnjeni k iskanju.

V Smithsonianovem digitaliziranem botaničnem arhivu so slike z visoko ločljivostjo osebkov seznanjene s prepisi pritrjenih priročnih identifikacijskih oznak. V Smithsonianovem digitaliziranem botaničnem arhivu so slike z visoko ločljivostjo osebkov seznanjene s prepisi pritrjenih priročnih identifikacijskih oznak. (Nacionalni naravoslovni muzej)

"To omogoča, da je naša zbirka dostopna vsem, ki imajo računalnik in internetno povezavo, " pravi predsednik muzejske botanike Laurence Dorr, "kar je odlično za odgovore na določena vprašanja." Kljub temu je Dorr ugotovil, da se ne more otresti občutka neizkoriščenega potenciala . Seveda je spletna skupnost zdaj na voljo ogromnih količin podatkov o vzorcih, vendar je analiza v zbirki ostala domišljijska. Iskanje posameznih primerkov in majhnih kategorij osebkov je bilo dovolj enostavno, vendar se je Dorr vprašal, ali obstaja način, kako izkoristiti podatke, da lahko sklepamo o tisočih osebkih. "Kaj lahko storite s temi podatki?" Se spominja, da se sprašuje. Moški z imenom Adam Metallo je kmalu podal prepričljiv odgovor.

Metallo, uradnik pri Smithsonianovem programu za digitalizacijo, se je udeležil konference, na kateri je tehnološki gigant NVIDIA - dragi PC igralci povsod - predstavil grafične procesorske enote nove generacije ali GPU-je. Metallo je tam iskal načine, kako izboljšati Smithsonianove digitalne zmogljivosti digitalnega upodabljanja, toda njegova pozornost je pritegnila in večinoma nepovezane kopice informacij. Poleg tega, da so ustvarili dinamične, visokozmogljive 3D-vizualne slike, so mu rekli, da so NVIDIA-in GPU-ji dobro prilagojeni tudi veliki analitiki podatkov. Še posebej so bili dobri grafični procesorji ravno tisto, kar je bilo potrebno za intenzivno digitalno prepoznavanje vzorcev; številni algoritem strojnega učenja je bil optimiziran za platformo NVIDIA.

Metallo se je takoj zapletlo. Ta tehnologija "globokega učenja", ki je že bila uporabljena v nišnih sektorjih, kot sta razvoj avtomobilov z lastno vožnjo in medicinska radiologija, je imela velik potencial za svet muzejev - kar, kot poudarja Metallo, predstavlja "največji in najstarejši nabor podatkov, do katerega imamo zdaj dostop do. "

"Kaj pomeni za velike nabore podatkov, ki jih ustvarjamo na Smithsonianu z digitalizacijo?" Je želel vedeti Metallo. Njegovo vprašanje se je popolnoma odražalo na vprašanje Laurencea Dorrja, in ko sta se oba povezala, so iskrice začele leteti. "Zbirka botanike je bila ena največjih zbirk, ki smo jo nazadnje delali, " se spominja Metallo. Predlagalo se je sodelovanje.

Medtem ko številne oblike strojnega učenja zahtevajo, da raziskovalci na slikah, ki jih je treba analizirati, označijo ključne matematične označevalce - zahteven postopek, ki pomeni držanje računalnika za roko - sodobni algoritmi za globoko učenje se lahko naučijo, katere označevalce je treba iskati na delovnem mestu, s čimer prihranite čas in odpiranje vrat za večje poizvedbe. Kljub temu je bilo pisanje programa za globoko učenje, značilno za Smithsonian, in njegovo umerjanje za diskretna vprašanja o botaničnem raziskovanju težaven posel - Dorr in Metallo sta potrebovala pomoč podatkovnih znanstvenikov, da bi njihovo vizijo uresničili.

Podatki znanstveniki sestavljajo vzorce za usposabljanje za nevronsko mrežo, česar se spominja Paul Frandsen Podatki znanstveniki sestavljajo vzorce za usposabljanje za nevronsko mrežo med tem, česar se Paul Frandsen spominja kot "hladnega januarskega dne." (Nacionalni naravoslovni muzej)

Eden izmed strokovnjakov, ki so jih pripeljali na krov, je bil znanstvenik Smithsonian raziskovalnih podatkov Paul Frandsen, ki je takoj prepoznal potencial pri ustvarjanju nevronske mreže, ki jo poganja NVIDIA GPU, da bi se vključil v zbirko botanike. Za Frandsena je ta projekt predstavljal ključni prvi korak po čudoviti in neraziskani poti. Kmalu pravi, "začeli bomo iskati morfološke vzorce v svetovnem merilu in odgovorili bomo na ta resnično velika vprašanja, ki bi jih tradicionalno potrebovali na tisoče ali milijone človeških ur, ki bi pregledali literaturo in razvrščanje stvari. Uporabili bomo algoritme, da bomo lažje našli te vzorce in izvedeli več o svetu. "

Pravkar objavljene ugotovitve so osupljiv dokaz koncepta. Študija, ki jo je ustvarila devetčlanska skupina, ki sta jo vodila raziskovalni botanik Eric Schuettpelz ter znanstvenik s podatki Paul Frandsen in Rebecca Dikow, je namen študije odgovoriti na dve obsežni vprašanji o strojnem učenju in herbariju. Prvi je, kako učinkovita je lahko usposobljena nevronska mreža pri razvrščanju vzorcev, ki jih obarvajo živo srebro, od nezavarovanih. Drugi, vrhunec prispevka, je, kako učinkovita je taka mreža pri razlikovanju članov dveh površinsko podobnih družin rastlin, in sicer družin praprotičjih družin Lycopodiaceae in Selaginellaceae .

Prvo preskušanje je zahtevalo, da je ekipa vnaprej preiskala na tisoče osebkov in dokončno ugotovila, kateri so bili vidno kontaminirani z živim srebrom (ostanek zastarele tehnike botaničnega ohranjanja). Želeli so biti prepričani, da so s 100-odstotno gotovostjo vedeli, kakšna so bila obarvana in katera ne - v nasprotnem primeru ocena natančnosti programa ne bi bila mogoča. Ekipa je češnjevo izbrala skoraj 8000 slik čistih vzorcev in 8000 več obarvanih vzorcev, s katerimi lahko usposobi in preizkusi računalnik. Ko so končali s popravljanjem parametrov nevronske mreže in umaknili vso človeško pomoč, je algoritem z 90-odstotno natančnostjo razvrstil vzorce, ki jih še nikoli ni videl. Če bi bili najbolj dvoumni vzorci - na primer tisti, pri katerih je bilo obarvanje minimalno in / ali zelo omedlevice - vrgli ven, je ta številka narasla na 94 odstotkov.

Ta rezultat pomeni, da bi programska oprema za poglobljeno učenje lahko kmalu pomagala botanikom in drugim znanstvenikom, da se izognejo zapravljanju časa za dolgočasne naloge razvrščanja. "Težava ni v tem, da človek ne more ugotoviti, ali je vzorec obarvan z živim srebrom ali ne, " pojasnjuje Metallo, ampak da je "težko ročno razbrati in ugotoviti, kje kontaminacija obstaja", in ni smiselno to storite s stališča upravljanja s časom. Na srečo lahko strojno učenje večje časovno potovanje spremeni v največ nekaj dni hitro avtomatizirano analizo.

Prenos osebkov naenkrat zahteva veliko energije in otežuje sklep obsežnega obsega. Zdaj velika analiza podatkov omogoča muzejem nove načine, kako pristopiti do svojih zbirk. Prenos osebkov naenkrat zahteva veliko energije in otežuje sklep obsežnega obsega. Zdaj velika analiza podatkov omogoča muzejem nove načine, kako pristopiti do svojih zbirk. (Arbold Arboretum)

Del raziskave o diskriminaciji vrst je še bolj vznemirljiv. Raziskovalci so usposobili in preizkusili nevronsko mrežo z približno 9.300 vzorci klubskega mosa in 9.100 vzorcev spikemosa. Tako kot pri poskusu obarvanja je bilo tudi približno 70 odstotkov teh vzorcev uporabljenih za začetno umerjanje, 20 odstotkov jih je bilo uporabljenih za natančnejše in končnih 10 odstotkov za formalno oceno natančnosti. Ko je bila koda optimizirana, je bila stopnja uspešnosti računalnika pri razlikovanju med obema družinama 96-odstotna in skoraj popolnih 99 odstotkov, če izpustimo najzahtevnejše vzorce.

Frandsen nekega dne razmišlja, da bi takšni programi lahko obravnavali predhodno kategorizacijo vzorcev v muzejih po vsem svetu. "Nikakor ne mislim, da bodo ti algoritmi kaj storili, da nadomestijo kustose, " hitro opazi, "ampak namesto tega mislim, da lahko kustosom in ljudem, ki sodelujejo v sistematiki, pomagajo do bolj produktivnosti, zato lahko veliko delajo. hitreje."

Uspeh nevronske mreže v tej študiji prav tako odpira pot za hitro preizkušanje znanstvenih hipotez v množičnih zbirkah. Dorr v svojih ugotovitvah vidi možnost izvedbe obsežnih morfoloških primerjav digitaliziranih vzorcev - primerjave, ki bi lahko privedle do pomembnih znanstvenih prebojev.

To ne pomeni, da bo globoko učenje srebrna krogla pri raziskovanju. Mark Algee-Hewitt iz Stanforda poudarja, da je "skoraj nemogoče rekonstruirati, zakaj in kako nevronska mreža sprejema svoje odločitve", ko je pogojena; Odločitve, ki jih pustimo računalniškim programom, morajo biti vedno nezapletene in preverljive narave, če jim je treba zaupati.

"Očitno, " pravi Dorr, avtonomni računalniški program, "ne bo testiral genetskih odnosov, takšne stvari" - vsaj v bližnji prihodnosti. "Lahko pa začnemo spoznavati porazdelitev značilnosti po geografski regiji ali po taksonomski enoti. In to bo resnično močno. "

Raziskava je bolj kot karkoli oddaljena točka. Zdaj je jasno, da tehnologija globokega učenja močno obeta znanstvenikom in drugim akademikom po vsem svetu, pa tudi radovedni javnosti, za katero pridobivajo znanje. Ostaja natančno nadaljnje spremljanje.

"To je majhen korak, " pravi Frandsen, "vendar je to korak, ki nam resnično pove, da te tehnike lahko delujejo na digitaliziranih muzejskih primerkih. Navdušeni smo nad tem, da bomo v naslednjih mesecih ustanovili še nekaj projektov, da bi še bolj preizkusili njegove meje. "

Kako bi umetna inteligenca lahko spremenila raziskave arhivskega muzeja