https://frosthead.com

Ali lahko računalniški model napoveduje prvi krog letošnje marčeve norosti?

"Pazite se marca." Da, končno je spet to leto v letu: ko si morajo carji koledarske košarke gledati hrbet, da ne bi prišli do spodnjih semen turnirja.

Pred 15. marcem bodo milijoni po vsem svetu izpolnili oklepaje March Madness. Leta 2017 je ESPN prejel rekordnih 18, 8 milijona oklepajev.

Prvi korak k popolnemu nosilcu je pravilna izbira prvega kroga. Na žalost večina od nas ne more napovedati prihodnosti. Lani je bilo v prvem krogu popolno le 164 oddanih oklepajev - manj kot 0, 001 odstotka.

Predloženih 18, 8 milijona oklepajev.

164 so popolni po 1. krogu.

Tu je še premagovanje. #perfectbracketwatch pic.twitter.com/TGwZNCzSnW

- ESPN Fantasy Sports (@ESPNFantasy) 18. marec 2017

Številni nosilci so razpadli, ko ekipa z nižjim semenom vznemirja favorizirano višje seme. Ker se je polje leta 1985 razširilo na 64 ekip, se vsako leto v povprečju zgodi najmanj osem upsov. Če želite osvojiti svoj bazen z oklepaji, raje izberite vsaj nekaj težav.

Smo dva doktorja matematike. kandidati na Državni univerzi Ohio, ki imajo strast do podatkovnih znanosti in košarke. Letos smo se odločili, da bo zabavno sestaviti računalniški program, ki uporablja matematični pristop za napovedovanje vzponov v prvem krogu. Če imamo prav, mora skupina, izbrana z našim programom, v prvem krogu delovati bolje kot povprečna skupina.

Neizbrisni ljudje

Ni lahko določiti, katera od iger v prvem krogu bo povzročila razburjenje.

Recite, da se morate odločiti med semenom št. 10 in semenom št. 7. Številka 10 je v zadnjih treh turnirskih nastopih odpravila nadmorske višine, enkrat pa je uvrstila še na Final Four. Seme številka 7 je ekipa, ki je prejela le malo, da nima nacionalnega pokritja; priložnostni oboževalec verjetno še nikoli ni slišal zanje. Katerega bi izbrali?

Če bi izbrali seme št. 10 v letu 2017, bi šli z univerzo Virginia Commonwealth nad Saint Mary's iz Kalifornije - in zmotili bi se. Zahvaljujoč napačnemu odločanju, ki se imenuje pristranskost, se lahko ljudje navežejo, da uporabljajo najnovejša opažanja za sprejemanje odločitev.

Pristranskost v spodobnosti je le ena vrsta pristranskosti, ki lahko vnese nekdo v postopek izbiranja, obstaja pa še veliko drugih. Mogoče ste pristranski do domače ekipe ali se morda poistovetite z igralcem in si obupno želite, da bi mu uspelo. Vse to vpliva na vaš nosilec na potencialno negativen način. V te pasti spadajo celo izkušeni profesionalci.

Modeliranje vznemirjenja

Strojno učenje se lahko brani pred temi pasti.

Pri strojnem učenju statistiki, matematiki in računalničarji stroj usposobijo za predvidevanje, tako da ga lahko "naučijo" iz preteklih podatkov. Ta pristop je bil uporabljen na številnih različnih področjih, vključno s trženjem, medicino in športom.

Tehnike strojnega učenja lahko primerjamo s črno škatlo. Najprej vnesete pretekle podatke algoritma in v bistvu nastavite številčnice na črno polje. Ko so nastavitve umerjene, lahko algoritem prebere nove podatke, jih primerja s preteklimi podatki in nato izpusti svoje napovedi.

Pogled v črno polje algoritmov strojnega učenja. Pogled v črno polje algoritmov strojnega učenja. (Matthew Osborne, CC BY-SA)

Pri strojnem učenju so na voljo različne črne škatle. Za naš projekt March Madness so tisti, ki smo jih želeli, znani kot klasifikacijski algoritmi. Te nam pomagajo ugotoviti, ali je treba igro razvrstiti kot razburjeno ali ne, bodisi z zagotavljanjem verjetnosti motenja bodisi z izrecno razvrstitvijo igre kot ene.

Naš program uporablja številne priljubljene algoritme za razvrščanje, vključno z logistično regresijo, naključnimi modeli gozdov in k najbližjimi sosedi. Vsaka metoda je kot drugačna "znamka" istega stroja; Pod pokrovom delujejo drugače kot Fords in Toyota, vendar opravljajo isto klasifikacijsko nalogo. Vsak algoritem ali polje ima svoje napovedi o verjetnosti motenja.

Za določitev številk na naših črnih skrinjicah smo uporabili statistiko vseh prvoligaških skupin 2001 do 2017. Ko smo preizkusili enega od naših algoritmov s prvovrstnimi podatki za leto 2017, je imel približno 75-odstotno uspešnost. To nam daje zaupanje, da lahko analiza preteklih podatkov, namesto da samo zaupamo črevesju, pripelje do natančnejših napovedi motenj in s tem do boljših skupnih stopenj.

Kakšne prednosti imajo te škatle pred človeško intuicijo? Prvič, stroji lahko v nekaj sekundah prepoznajo vzorce vseh podatkov za obdobje 2001–2017. Še več, ker se stroji zanašajo le na podatke, morda manj verjetno padejo zaradi človeških psiholoških pristranskosti.

To ne pomeni, da nam bo strojno učenje dalo popolne oklepeje. Čeprav škatla obide človeško pristranskost, ni zmožna napak. Rezultati so odvisni od preteklih podatkov. Na primer, če bi seme številke 1 izgubilo v prvem krogu, naš model tega najverjetneje ne bi napovedoval, ker se to še nikoli ni zgodilo.

Poleg tega algoritmi strojnega učenja najbolje delujejo na tisoče ali celo milijone primerov. Od leta 2001 je bilo odigranih le 544 iger v marcu Madness, zato naši algoritmi ne bodo pravilno izzvali vsake težave. Odmeven košarkarski strokovnjak Jalen Rose, naš izid bi morali uporabiti kot orodje v povezavi z vašim strokovnim znanjem - in srečo! - izbrati pravilne igre.

Strojno učenje norosti?

Nismo prvi, ki je na marčno norost uporabil strojno učenje in ne bomo zadnji. V resnici bodo morda kmalu potrebne tehnike strojnega učenja, da bo vaš nosilec konkurenčen.

Za uporabo strojnega učenja ne potrebujete diplome iz matematike - čeprav nam to pomaga. Kmalu bo morda strojno učenje bolj dostopno kot kdajkoli prej. Zainteresirani si lahko ogledajo naše modele na spletu. Prosto raziščite naše algoritme in si celo sami omislite boljši pristop.


Ta članek je bil prvotno objavljen na pogovoru. Pogovor

Matthew Osborne, kandidat za matematiko na Državni univerzi Ohio

Kevin Nowland, doktor znanosti o matematiki, Državna univerza Ohio

Ali lahko računalniški model napoveduje prvi krog letošnje marčeve norosti?