Može li ikad biti previše podataka u velikim podacima?

Video: Seth Shostak: ET is (probably) out there — get ready

Sadržaj

P:

A:

Odgovor na pitanje odjekuje DA. U velikom projektu podataka može apsolutno biti previše podataka.

Postoje brojni načini na koje se to može dogoditi i razni razlozi zbog kojih profesionalci moraju ograničiti i očistiti podatke na bilo koji broj načina da bi postigli prave rezultate. (Pročitajte 10 velikih mitova o velikim podacima.)

Općenito, stručnjaci govore o razlikovanju "signala" od "buke" u modelu. Drugim riječima, u moru velikih podataka relevantne uvidne podatke postaje teško ciljati. U nekim slučajevima tražite iglu u sijenu.

Na primjer, pretpostavimo da tvrtka pokušava koristiti velike podatke za generiranje konkretnih uvida u segment klijentske baze i njihove kupnje u određenom vremenskom okviru. (Pročitajte što rade veliki podaci?)

Uzimanje ogromne količine podataka može dovesti do unošenja slučajnih podataka koji nisu relevantni, ili pak može proizvesti pristranost koja podatke skenira u jednom ili drugom smjeru.

To također usporava proces dramatično, jer se računalni sustavi moraju boriti sa sve većim i većim nizovima podataka.

U tako mnogo različitih vrsta projekata izuzetno je važno da inženjeri podataka obrađuju podatke u ograničene i specifične skupove podataka - u gornjem slučaju to bi bili samo podaci za taj segment klijenata koji se proučavaju, samo podaci za to vrijeme okvir koji se proučava i pristup koji otklanja dodatne identifikatore ili pozadinske informacije koje mogu zbuniti stvari ili usporiti sustave. (Uloga ReadJob: Inženjer podataka.)

Za više, pogledajmo kako to funkcionira na granici strojnog učenja. (Pročitajte strojno učenje 101.)

Stručnjaci za strojno učenje govore o nečemu što se naziva "prekomjerno opremanje" gdje pretjerano složen model dovodi do manje učinkovitih rezultata kada je program strojnog učenja labav na novim proizvodnim podacima.

Prekomjerno opremanje događa se kada složeni skup točaka podataka previše dobro odgovara početnom setu obuke i ne dopuštate programu da se lako prilagodi novim podacima.

Tehnički gledano, prekomjerno opremanje uzrokovano nije postojanjem previše uzoraka podataka, već koronacijom previše točaka podataka. Ali možete tvrditi da i previše podataka može biti faktor koji doprinosi ovoj vrsti problema. Suočavanje s prokletstvom dimenzionalnosti uključuje neke iste tehnike koje su rađene u ranijim projektima velikih podataka kao što su profesionalci pokušali odrediti čime se hrane IT sustavi.

Suština je da veliki podaci mogu biti od velike pomoći tvrtkama ili mogu postati veliki izazov. Jedan aspekt toga je ima li tvrtka prave podatke u igri. Stručnjaci znaju da nije uputno jednostavno spustiti sve podatke u spremnik i na taj način smisliti uvide - u novim izvornim oblacima i sofisticiranim podatkovnim sustavima nastoji se kontrolirati i upravljati i obrađivati podatke kako bi dobili preciznije i preciznije podatke. učinkovita uporaba sredstava podataka.