https://frosthead.com

Kako Google ohranja vašo neželeno pošto v mapi »Prejeto«

Za vsem Googlovim krčenjem informacij - od ugotovitve, kateri rezultati iskanja so najpomembnejši, do branja in shranjevanja zavihkov na vašem e-poštnem sporočilu - je nekaj zanimivega matematičnega. In pred kratkim je Javier Tordable, programski inženir, na njej predstavil in odprl okno v čudaški svet Google.

Začnimo z Gmailom. Včasih dobite neželeno pošto, vendar je Gmail precej dober, če ugotovite, da ko dopisnik skuša pridobiti naložbo v nigerijskega princa, verjetno ne želite tega kosa pošte v mapi »Prejeto«. Kako to ve? Prvi korak: usposobite stroj. Drugi korak: delujte.

Imenuje se strojno učenje in Google to počne veliko. V prvem koraku morate narediti tisto, kar računalničarji imenujejo "opisati primerek". Pri matematiki to pomeni:

Na splošno lahko značilnosti primerka štejemo kot elemente v vektorju dvodimenzionalnega evklidskega prostora za velik n (100-1000 dimenzij je normalno, 1M-10M ni bilo slišati)

Toda tukaj je, kako razmisliti, če ste prenehali matematiko po Calc 1. Gmail lahko potegne nekaj ključnih podatkov iz katerega koli določenega e-poštnega sporočila. Kako dolgo je? Koliko velikih črk je? Je to od nekoga, od katerega ste že prejeli e-poštno sporočilo? Nočete, da so informacije, potrebne za odločitev, pretežke za pridobitev ali obravnavo, ker bo to upočasnilo in zmanjšalo natančnost vašega stroja. Tako Google nariše črto na podlagi tega, kar ve o neželeni pošti. E-poštna sporočila, ki se prebijejo, padejo na eni strani črte, neželena pošta pa na drugi strani.

Več matematike govori:

Preprost klasifikacijski model je hiperplana v prostoru značilnosti. Podatki na eni strani hiperplane so razvrščeni kot veljavna e-poštna sporočila, primeri na drugi strani pa kot neželena pošta.

Kaj pa iskanje glasu - imenovano tudi samodejno prepoznavanje govora ali ASR? Tako kot strojno učenje se tudi ASR dogaja v dveh delih: obdelava zvoka, ki prihaja, in ugotavljanje, kaj govorite. Prvi del vključuje Fourierjeve preobrazbe, ki izolirajo pomembne bite, ki jih računalnik lahko prevede. Drugi del je modeliranje govora z uporabo "skritega Markovega modela".

V tem modelu so stanja črke sporočila in zaporedje dogodkov je zvočni signal. Algoritem Viterbi se lahko uporabi za pridobivanje zaporedja stanj največje verjetnosti.

Google bi rad izboljšal in olajšal prepoznavanje glasu. V tej študiji primera skupina Googlovih piškotkov napiše:

Cilj Googla je, da se povsod omogoči govorni dostop. Uporabniku želimo dovoliti, da izbere - morali bi imeti možnost, da je samoumevno, da je govorna interakcija vedno možnost. Doseganje vseprisotnosti zahteva dve stvari: razpoložljivost (tj. Vgrajena je v vsako možno interakcijo, kjer lahko govorni vhod ali izhod ima smisel) in zmogljivost (tj. Deluje tako dobro, da modalnost interakciji ne doda trenja).

Drugo področje, kjer Google uporablja matematiko, je v njihovih zemljevidih ​​- v središču pozornosti je pred kratkim po tem, ko je Apple njihov zemljevidni sistem predstavil do velikih kritik. V središču Google Maps je osnovna teorija grafov - matematika, kako priti iz enega kraja v drugega med potovanjem na najkrajšo razdaljo. Je pa seveda bolj zapleteno od tega. Toplotno piše: "Edina edinstvena težava je, da grafi, uporabljeni v Google Zemljevidih, vsebujejo milijone vozlišč, vendar se algoritmi morajo izvajati v milisekundah."

Google nam ne bo povedal, kako to počnejo. Sicer Apple ne bi naletel na svojo težavo, a osnove vključujejo pretresanje algoritma Dijsktra (verjetno najpogosteje uporabljen algoritem iskanja grafov). Pred nekaj leti so računalniški znanstveniki z univerze v Karlsruheju opisali nov način za razvrščanje poizvedb po poti, da bi dosegli veliko hitrejše rezultate. Zapisali so:

Naš algoritem v nekaj urah z linearnim presledkom obdeluje osemmestno število vozlišč, potrebnih za zemljevide ZDA ali Zahodne Evrope. Najkrajše (tj. Najhitrejše) poizvedbe poti trajajo približno osem milisekund, da nastanejo natančno najkrajše poti. To je približno 2000 krat hitreje kot uporaba algoritma Dijkstra.

Tordable se nanaša na številna druga matematična orodja, ki jih uporablja Google, vključno s tistimi, ki so vključena v Google Knjige, Iskanje slik, Analytics, YouTube, Google Translate, Google Earth in Picasa. Celoten sklop diapozitivov si lahko ogledate tukaj.

Več s Smithsonian.com:

Smithsonian dobi Google Mapped
Spremljajte trende hrane z Google Knjigami

Kako Google ohranja vašo neželeno pošto v mapi »Prejeto«