https://frosthead.com

Ali lahko statistični model natančno napoveduje število olimpijskih medalj?

Če bi vas kdo prosil, da napovete število medalj, ki jih bo osvojila vsaka država na letošnjih olimpijskih igrah, bi verjetno poskušali identificirati favorizirane športnike v vsaki disciplini, potem bi sešteli pričakovane zmage vsake države in dosegle rezultat.

Tim in Dan Graettinger, brata za podjetje za rudarjenje podatkov Discovery Corps, Inc., imata precej drugačen pristop. Športnike v celoti ne upoštevajo.

Namesto tega njihov model za igre v Sočiju proučuje geografsko območje vsake države, BDP na prebivalca, skupno vrednost izvoza in širino, da bi določil, koliko medalj bo posamezna država osvojila. V primeru, da se sprašujete, napoveduje, da se bodo ZDA uvrstile na vrh, skupno bo imelo 29 medalj.

Graettingers niso prvi, ki uporabljajo tovrstni podatkovno usmerjeni pristop od zgoraj navzdol pri napovedovanju števila medalj. Daniel Johnson, profesor ekonomije s kolidža v Koloradu, je med petimi olimpijskimi igrami med leti 2000 in 2008 zgradil podobne modele - dosegel je 94-odstotno natančnost pri napovedovanju števila medalj posameznih držav -, vendar ni ustvaril modela za Soči.

Dan in Tim sta novejša v igri. Dan - ki običajno dela na bolj običajnih projektih za pridobivanje podatkov, na primer napoveduje potencialne kupce podjetja - se je prvič pozanimal, če je med zimskimi olimpijskimi igrami v Vancouvru uporabil modele za napovedovanje tekmovanj. "Podatke o preteklosti uporabljam, da ves čas napovedujem prihodnost, " pravi. "Vsako noč bi na TV-ju prikazali število medalj in začel sem se spraševati, ali bi to lahko napovedali."

Čeprav se predstave posameznih športnikov lahko nepredvidljivo razlikujejo, je po njegovem mnenju obstajala splošna povezava med temeljnimi značilnostmi države (na primer velikostjo, podnebjem in količino bogastva) in številom medalj, ki bi jih verjetno odnesli domov. Takšen pristop ne bi mogel povedati, kateri tekmovalec bi lahko zmagal na določenem dogodku, vendar bo z dovolj podatkov mogoče natančno napovedati skupno število medalj za vsako državo.

Na začetku sta se z bratom lotila razvijanja predhodnega modela za igre v Londonu 2012. Za začetek so zbrali široko paleto različnih vrst podatkov, od vsega, od zemljepisa države do njene zgodovine, religije, bogastva in politične strukture. Nato so uporabili regresijsko analizo in druge metode drobljenja podatkov, da bi videli, katere spremenljivke so bile najbolj povezane z zgodovinskimi podatki o olimpijskih odličjih.

Ugotovili so, da je za poletne igre model, ki je vseboval bruto domači proizvod, prebivalstvo, širino in splošno gospodarsko svobodo (merjeno z indeksom Heritage Foundation), najbolje ujemal s štetjem medalj vsake države na prejšnjih dveh poletnih olimpijskih igrah (2004 in 2008). Toda v tistem trenutku je njihov predhodni model lahko le napovedal, katere države bodo osvojile dve ali več medalj, ne pa števila medalj na državo.

Odločili so se, da jo bodo izboljšali za igre v Sočiju, vendar se niso mogli zanesti na svoj prejšnji model, saj se države, ki so pozimi uspešne, tako zelo razlikujejo od poletnih. Njihov novi model Sochi se spopada s težavo napovedovanja štetja medalj v dveh korakih. Ker približno 90 odstotkov držav še nikoli ni osvojilo niti ene medalje za zimske olimpijske igre (še nikoli ni zmagal športnik iz Bližnjega vzhoda, Južne Amerike, Afrike ali Karibov), najprej loči deset odstotkov, ki bodo verjetno osvojili vsaj eno, nato pa napove, koliko vsak bo zmagal.

"Nekateri trendi so približno tisti, kar bi pričakovali - ko število prebivalstva v državi narašča, obstaja večja verjetnost, da bo osvojil medaljo, " pravi Tim. "Sčasoma pa potrebujete nekaj zmogljivejših statističnih naprav, ki lahko prebrskajo številne spremenljivke in jih razvrstijo v smislu, ki najbolj napovedujejo."

Na koncu so naleteli na nekaj spremenljivk, ki natančno ločijo devetdeset odstotkov držav, ki niso osvojile medalje, od desetih odstotkov, ki bodo verjetno zmagale: ti vključujejo stopnjo migracije, število zdravnikov na prebivalca, zemljepisno širino, bruto domači proizvod in ali je država imela osvojil medaljo na prejšnjih poletnih igrah (nobena država še ni osvojila zimske medalje, ne da bi je osvojila prejšnje poletje, deloma tudi zato, ker je skup poletnih zmagovalcev toliko večji od zimskih). Z vodenjem tega modela na zadnjih dveh zimskih olimpijskih igrah je ta model določil, kateri narodi so domov dobili medaljo z 96, 5-odstotno natančnostjo.

Graettingers je z 90 odstotki odstranjenih držav uporabil podobne regresijske analize, da je ustvaril model, ki je retroaktivno predvidel, koliko medalj bo osvojila vsaka preostala država. Njihova analiza je pokazala, da nekoliko drugačen seznam spremenljivk najbolje ustreza zgodovinskim podatkom o medaljah. Spodaj so navedene spremenljivke in napovedi za igre v Sočiju:

Slika 4-predvidena medalja Tabela 2 - z obrobi.png Predvidevanja modela za igre v Sočiju (Graph courtesy Discovery Corps, Inc.)

Nekatere spremenljivke, za katere se je izkazalo, da so korelativne, niso velik šok - smiselno je, da se države z višje širine bolje obnesejo v času zimskih iger - nekatere pa so bile bolj presenetljive.

"Mislili smo, da bo pomembno prebivalstvo, ne kopenska površina, " pravi Dan. Niso prepričani, zakaj se geografsko območje bolj natančno prilega zgodovinskim podatkom, vendar je to mogoče zato, ker nekaj držav z visokim prebivalstvom, ki ne osvojijo zimskih medalj (na primer Indija in Brazilija), zavrže podatke. Z uporabo zemljiških površin se model izogne ​​velikemu vplivu teh držav, vendar še vedno ohranja grobo povezanost s prebivalstvom, saj imajo države z večjimi območji na splošno večje število prebivalstva.

Seveda model ni popoln, tudi če se ujemajo z zgodovinskimi podatki. "Naš pristop je 30 000 čevljev. Obstajajo spremenljivke, ki jih ne moremo upoštevati, " pravi Tim. Nekatere države že večkrat prekašajo napovedi modela (vključno z Južno Korejo, ki dobi nesorazmerno veliko hitrostnih drsalnih tekem), medtem ko druge dosledno slabše (na primer v Veliki Britaniji, ki se zdi, da je na poletnih dogodkih veliko boljše, kot bi bilo pričakovati, morda zato, ker - kljub širini - pada veliko več dežja kot snega).

Poleg tega je dosledna izjema, ki so jo ugotovili pri napovedih modela, ta, da država gostiteljica osvoji več medalj, kot bi jih sicer, samo na podlagi podatkov. Italija (med igrami v Torinu leta 2006) in Kanada (med igrami v Vancouvru leta 2010) sta bila modelu uspešnejša, Kanada pa je ves čas dosegla rekord v osvojenih 14 zlatih.

Kljub temu so Graettingerji na podlagi svojega statistično strogega pristopa prepričani, da bo njihov model na splošno predvidel končno štetje medalj z relativno visoko natančnostjo.

Kako se njihove napovedi primerjajo s tistimi strokovnjaki, ki uporabljajo bolj običajne strategije? Strokovnjaki se ne razlikujejo bistveno, imajo pa nekaj tradicionalno uspešnih držav (Norveška, Kanada, Rusija), ki osvojijo večje število medalj, skupaj z nekaterimi drugimi (Kitajska, Nizozemska, Avstralija) pa vsako osvoji nekoliko manj.

Do danes Graettingers ni dal nobene stave na svoje napovedi, vendar načrtujejo, da bodo primerjali rezultate svojega modela s kvotami za stave tik pred začetkom igre. Če opazijo neskladja, ki bi jih radi izkoristili, lahko denar naložijo tam, kjer so njihova usta.

Ali lahko statistični model natančno napoveduje število olimpijskih medalj?