Pretjerano obećanje takozvanog nepristranog kopiranja podataka


Dobitnik Nobelove nagrade Richard Feynman jednom je zamolio studente Caltech-a da izračunaju vjerojatnost da će, ako bude izašao izvan učionice, prvi automobil na parkiralištu imati određenu registarsku pločicu, kaže 6ZNA74. Uz pretpostavku da su svi brojevi i slova jednako vjerojatni i utvrđeni neovisno, učenici su procijenili da je vjerojatnost manja od 1 u 17 milijuna. Kada su učenici završili svoje izračune, Feynman je otkrio da je prava vjerojatnost 1: Vidio je ovu registarsku pločicu na putu u razred. Nešto malo vjerojatno nije uopće vjerojatno ako se već dogodilo.

Feynmanova zamka – pretresanje podataka za obrasce bez ikakve unaprijed stvorene ideje o tome što netko traži – je Ahilova peta studija temeljenih na rudarstvu podataka. Pronalaženje nečeg neobičnog ili iznenađujućeg nakon što se to već dogodilo nije ni neobično ni iznenađujuće. Obrasci su sigurni da će se naći, i vjerojatno će biti zavaravajući, apsurdni, ili još gore.

U svojoj najprodavanijoj knjizi iz 2001. godine Dobro do Velike, Jim Collins je usporedio 11 tvrtki koje su nadmašile ukupnu burzu tijekom proteklih 40 godina do 11 tvrtki koje nisu. On je identificirao pet razlikovnih osobina koje su uspješne tvrtke imale zajedničko. "Nismo započeli ovaj projekt s teorijom koja bi se testirala ili dokazala", hvalio se Collins. "Nastojali smo izgraditi teoriju iz temelja, izvedenu izravno iz dokaza."

Zakoračio je u Feynmanovu zamku. Kada se osvrnemo u prošlost u bilo kojoj grupi tvrtki, najboljem ili najgorem, uvijek možemo pronaći neke zajedničke karakteristike, tako da pronalaženje njih ne dokazuje ništa. Nakon objavljivanja Dobro do Velike, izvedba Collinsovih veličanstvenih 11 dionica bila je izrazito osrednja: pet dionica učinilo je bolje od ukupnog tržišta dionica, dok je šest dionica učinilo još gore.

Godine 2011. Google je stvorio program umjetne inteligencije pod nazivom Google gripa koji je pomoću upita za pretraživanje predvidio izbijanje gripe. Googleov program za prikupljanje podataka analizirao je 50 milijuna upita za pretraživanje i identificirao 45 koji su bili usko povezani s učestalošću gripe. To je još jedan primjer zamke za prikupljanje podataka: valjana studija unaprijed bi odredila ključne riječi. Nakon izdavanja izvješća, Google gripa precijenila je broj slučajeva gripe za 100 u sljedećih 108 tjedana, u prosjeku za gotovo 100 posto. Google gripa više ne predviđa gripu.

Internet marketer mislio je da bi mogao povećati svoj prihod promjenom svoje tradicionalne boje plave web stranice na drugu boju. Nakon nekoliko tjedana testiranja, tvrtka je pronašla statistički značajan rezultat: očito Engleska voli teal. Promatrajući nekoliko alternativnih boja za stotinjak zemalja, jamčile su da će za neku zemlju povećati prihod za neku boju, ali prije vremena nisu znale je li teal prodao više u Engleskoj. Kako se ispostavilo, kada je boja engleske web stranice promijenjena u sireve, prihodi su se smanjili.

Standardni eksperiment neuroznanosti uključuje prikazivanje volontera u MRI stroju raznim slikama i postavljanje pitanja o slikama. Mjerenja su bučna, prikupljaju magnetske signale iz okoline i varijacije u gustoći masnog tkiva u različitim dijelovima mozga. Ponekad im nedostaje moždana aktivnost; ponekad sugeriraju aktivnosti gdje ih nema.

Dartmouthov student koristi MRI aparat za proučavanje aktivnosti mozga lososa jer su mu prikazane fotografije i postavljena pitanja. Najzanimljivija stvar u istraživanju nije bila proučavanje lososa, već da je losos mrtav. Da, mrtav losos kupljen na lokalnom tržištu stavljen je u MRI stroj i otkriveni su neki obrasci. Bilo je neizbježnih obrazaca – i oni su bili beznačajni.

Godine 2018. profesor ekonomije na Yaleu i student diplomskog studija izračunali su korelacije između dnevnih promjena cijena Bitcoin-a i stotina drugih financijskih varijabli. Otkrili su da su cijene Bitcoin-a bile pozitivno povezane s povratom dionica u industriji robe široke potrošnje i zdravstvene skrbi, te da su negativno korelirane s povratom dionica u proizvodima i industriji rudarstva. "Mi ne dajemo objašnjenja", rekao je profesor, "samo dokumentiramo ovo ponašanje." Drugim riječima, oni su također mogli pogledati korelacije cijena Bitcoin-a sa stotinama popisa telefonskih brojeva i izvijestiti o najvišim korelacijama.

Direktor laboratorija za hranu i robnu marku Sveučilišta Cornell autor je (ili koautor) više od 200 recenziranih radova i napisao dvije popularne knjige koje su prevedene na više od 25 jezika.

U postu na blogu iz 2016. godine pod nazivom „Student koji nikad nije rekao“, napisao je o studentu koji je dobio podatke prikupljene na talijanskom švedskom stolu.

Pojavila se dopisivanje putem e-pošte u kojoj je profesor savjetovao studentu da razdvoji goste na „muškarce, žene, posjetitelje ručka, posjetitelje večere, ljude koji sjede sami, ljudi koji jedu s grupama od 2, ljudi koji jedu u skupinama od 2+, osobe koje naručuju alkoholno piće. , ljudi koji naručuju bezalkoholna pića, ljude koji sjede blizu bifea, ljude koji sjede daleko, i tako dalje … ”Onda je mogla pogledati različite načine na koje se ove podgrupe mogu razlikovati:“ # komadi pizze, # putovanja, razina punjenja od tanjura, jesu li dobili desert, jesu li naručili piće, i tako dalje … "

Zaključio je da bi trebala "naporno raditi, istisnuti krv iz ove stijene". Nikad ne govoreći ne, učenik je dobio četiri papira (sada poznata kao "pizza papirići") koji je objavljen s Cornellovim profesorom kao koautor. Najpoznatiji list izvijestio je da muškarci jedu 93 posto više pizza kada jedu sa ženama. To se nije dobro završilo. U rujnu 2018. Cornellov fakultetski odbor zaključio je da je u svom istraživanju "počinio akademsko neprimjereno ponašanje".

Dobro istraživanje započinje jasnom idejom o tome što netko traži i očekuje. Data mining samo traži uzorke i neizbježno pronalazi neke.

Problem je danas postao endemičan jer su moćna računala tako dobra u pljačkanju velikih podataka. Rudari podataka pronašli su korelacije između Twitter riječi ili Googleovih upita za pretraživanje i kriminalnih aktivnosti, srčanih napada, cijena dionica, izbornih rezultata, cijena Bitcoina i nogometnih utakmica. Možda pomislite da radim ove primjere. Ja nisam.

Postoje čak i jače korelacije s čisto slučajnim brojevima. Big Data Hubris smatra da korelacije s podacima moraju biti smislene. Pronalaženje neobičnog uzorka u Big Data-u nije uvjerljivije (ili korisnije) od pronalaženja neobične tablice izvan Feynmanove učionice.

WIRED Mišljenje objavljuje radove vanjskih suradnika i predstavlja širok spektar gledišta. Pročitajte više mišljenja ovdje. Pošaljite op-ed na opinion@wired.com


Više sjajnih žičanih priča