https://frosthead.com

Zakaj Google gripi ne morejo slediti gripi (še)

Leta 2008 je Google objavil zanimivo novo storitev, imenovano Google Trendi gripe. Inženirji v podjetju so opazili, da nekatere iskalne poizvedbe (na primer tiste, ki vključujejo besedo "vročina" ali kašelj) kažejo, da se vsako sezono gripe širijo. Njihova ideja je bila, da bi pogostost teh iskanj uporabili za izračun hitrosti gripe po vsej državi, kot bi lahko naredijo z običajnimi podatki (za zbiranje in analizo na splošno je potrebnih nekaj tednov), da se ljudem da vedeti, kdaj naj sprejmejo dodatne previdnostne ukrepe, da ne pridejo do virusa.

Sorodne vsebine

  • Kako lahko vremenski modeli in Google pomagajo napovedati sezono gripe
  • Veliki podatki ali preveč informacij?

Mediji (tudi ta poročevalec) so hiteli čestitati Googlu za tako pronicljivo, inovativno in motečo uporabo velikih podatkov. Edina težava? Google Trendi gripe niso zelo uspešni.

Služba nenehno precenjuje stopnje gripe, v primerjavi s konvencionalnimi podatki, ki jih je pozneje zbral CDC, in ocenila, da je pojavnost gripe večja, kot je bila v 100 od 108 tednov med avgustom 2011 in septembrom 2013. Januarja 2013, ko je bila nacionalna stopnja gripe je dosegla najvišjo vrednost, vendar so bile ocene Google Glu Trends dvakrat višje od resničnih podatkov, zato so se njene netočnosti končno začele zbirati v medijih.

Najpogostejša razlaga za neskladje je bila ta, da Google ni upošteval težav pri poizvedbah, povezanih z gripo, ki se pojavijo kot posledica histerične gripe v medijih, ki se pojavi vsako zimo. Toda ta teden v Scienceu skupina družboslovcev pod vodstvom Davida Lazerja predlaga nadomestno razlago: da je Google kriv za svoje algoritme iskanja.

Zunanji uporabniki težko analizirajo Google gripa, saj podjetje ne objavlja posebnih iskalnih izrazov, ki jih uporablja kot neobdelane podatke, niti določenega algoritma, ki ga uporablja za pretvorbo pogostnosti teh izrazov v ocene gripe. Toda raziskovalci so po svojih najboljših močeh sklepali, da so uporabili Google Correlate, storitev, ki vam omogoča, da skozi čas preverite hitrost določenih iskalnih izrazov.

Ko so raziskovalci v zadnjih nekaj letih to storili za različna vprašanja, povezana z gripo, so ugotovili, da je nekaj ključnih iskanj (tistih za zdravljenje gripe in tistih, ki sprašujejo, kako razlikovati gripo od prehlada) bolj natančno spremljalo Google Flu Ocene trendov kot pri dejanskih stopnjah gripe, zlasti ko je Google precenil razširjenost te bolezni. Zdi se, da bi ta posebna iskanja lahko pomenila velik del težave z netočnostjo.

Obstaja še en dober razlog za sum, da je temu res tako. Leta 2011 je Google kot del enega od svojih rednih algoritmov za iskanje algoritmov začel priporočati povezane iskalne poizvedbe za številne poizvedbe (vključno s seznamom iskanja zdravljenja gripe po tem, ko je nekdo z Googlom opravil veliko izrazov, povezanih z gripo), leta 2012 pa je podjetje začelo ponujati potencialne diagnoze kot odgovor na simptome pri iskanju (vključno z navedbo "gripe" in "prehlada" po iskanju, ki je na primer vključeval besedno zvezo "vneto grlo", morda uporabnika spodbudi, da poišče, kako razlikovati med obema. Raziskovalci trdijo, da so te spremembe verjetno umetno povišale število iskanj, ki so jih ocenili kot odgovorne za Googlove precenjenosti.

Seveda, če bi bila ta hipoteza resnična, to ne bi pomenilo, da je Google Grip Trends neizogibno obsojen na netočnost, le da jo je treba posodobiti, da bi upoštevali nenehne spremembe iskalnika. Toda Lazer in drugi podobni strokovnjaki trdijo, da je sledenje gripi iz velikih podatkov še posebej težaven problem.

Zdi se, da velik del iskalnih izrazov, ki so v skladu s podatki CDC o stopnji gripe, ne povzročajo ljudje, ki prejemajo gripo, temveč tretji dejavnik, ki vpliva tako na vzorce iskanja kot na prenos gripe: zimo. Dejansko so razvijalci Google Trendov gripe poročali, da se srečujejo s posebnimi izrazi - tistimi, ki se na primer nanašajo na košarkarsko srednjo šolo -, ki so bili s časom povezani s hitrostjo gripe, vendar očitno niso imeli ničesar z virusom.

Sčasoma so Googlovi inženirji ročno odstranili številne izraze, ki so v povezavi z iskanjem gripe, vendar nimajo nobene zveze z gripo, vendar je bil njihov model očitno še vedno preveč odvisen od sezonskih trendov iskanja gripe - del razloga, zaradi katerega Google Trendi gripe niso odražali 2009 epidemija H1N1, ki se je zgodila poleti. Posebej v svojih prejšnjih različicah je bil Google Flu Trends "del detektor gripe, delni detektor zime", pišejo avtorji znanstvenega prispevka.

Toda vse to je lahko lekcija za uporabo velikih podatkov v projektih, kot je Google Flu Trends, ne pa splošna obtožba o tem, pravijo raziskovalci. Če je ustrezno posodobljen, da bi upošteval prilagoditve Googlovemu lastnemu algoritmu in strogo analiziral, da bi odstranil izključno sezonske dejavnike, bi bil lahko koristen pri dokumentiranju stopnje gripe po vsej državi, zlasti v kombinaciji s konvencionalnimi podatki.

Kot test so raziskovalci ustvarili model, ki je združeval podatke o Googlovem gripu (ki so v bistvu v realnem času, vendar so potencialno netočni) z dve tedni starimi podatki o CDC (ki so datirani, ker je potreben čas za zbiranje, vendar bi še vedno lahko bili nekoliko kaže na trenutne stopnje gripe). Njihov hibrid se je veliko bolj približal dejanskim in trenutnim podatkom o gripi kot Google gripa in predstavil način hitrejšega pridobivanja teh informacij, kot če bi na običajne podatke čakal dva tedna.

"Naša analiza Google Flu dokazuje, da najboljši rezultati izhajajo iz združevanja informacij in tehnik iz obeh virov, " je v izjavi za javnost dejal Ryan Kennedy, profesor politologije z univerze v Houstonu. "Namesto da bi govorili o" revoluciji velikih podatkov ", bi morali razpravljati o" revoluciji vseh podatkov "."

Zakaj Google gripi ne morejo slediti gripi (še)