Koliko su strukturirani vaši podaci? Ispitivanje strukturiranih, nestrukturiranih i polustrukturiranih podataka

Video: ASOCEU CROATIA - Lesson 2 - Research Methods: Primary Data

Sadržaj

Što su strukturirani podaci?
Što su nestrukturirani podaci?
Bez grešaka, bez stresa - Vaš korak po korak vodič za stvaranje softvera koji mijenja život bez uništavanja života
Koji padaju između: polustrukturirani podaci
Mogu li se nestrukturirani podaci transformirati u strukturirane podatke?

Izvor: monsitj / iStockphoto

Oduzeti:

Saznajte više o strukturiranim, nestrukturiranim i polustrukturiranim podacima.

Povijesno gledano, analitičari podataka bili su u stanju dešifrirati i izvući podatke iz samo jedne vrste podataka: strukturiranih podataka. Ova vrsta podataka bila je lako pretraživati zbog svojih jasnih obrazaca, ali predstavljala je manji postotak ukupnih dostupnih podataka.

Nestrukturirani podaci uključuju i video, audio, s i podatke koji dolaze s društvenih medija i mobilnih uređaja. Bio je to, spuštene ruke, najveća dostupna sirova informacija, ali nitko nije uspio pouzdano iskoristiti taj resurs.

Stvari su se, međutim, promijenile jer je veća dostupnost prostora za pohranu i vrhunske mogućnosti obrade rodila nestrukturiranu analitiku podataka - novi, a samim tim i nezreo oblik tehnologije. Bolja poslovna inteligencija u potpunosti koristi ovu priliku i ulažu se znatna ulaganja u objedinjavanje strukturirane i nestrukturirane analitike podataka kako bi se pristupio ovom naoko beskrajnom zlatnom rudniku informacija.

Pogledajmo ova dva formata podataka da bismo razumjeli njihove razlike i što budućnost očekuje za sve analitičare podataka.

Što su strukturirani podaci?

Strukturirani podaci su visokoorganizirani podaci koje proizvodi čovjek ili stroj, a mogu se lako pohraniti u strukture baza podataka poznate kao relacijske baze podataka (RDB). To je sve što postoji u formatu koji se može lako uhvatiti, pohraniti i organizirati u RDB strukturu da bi se kasnije analizirao. (Da biste saznali više o bazama podataka, pogledajte naš Uvod u baze podataka.)

Primjeri uključuju poštanski brojeve, telefonske brojeve i demografske podatke korisnika, kao što su dob ili spol. Podaci pronađeni u ovim bazama podataka mogu se upitati strukturiranim jezikom upita (SQL) ili VLOOKUP funkcijama unutar Excel proračunskih tablica. Algoritmi se mogu praviti i za brzo pretraživanje podataka koji se nalaze u različitim poljima pomoću njihovih indeksa ili njihovih numeričkih i abecednih podataka. Međutim, svi su podaci strogo definirani s obzirom na vrstu i naziv polja, te je mogućnost njihovog pohranjivanja, upita i analiziranja u određenoj mjeri ograničena.

Tipične aplikacije koje koriste strukturirane podatke uključuju softver za upravljanje bolnicom, aplikacije za upravljanje odnosima s klijentima (CRM) i sustave rezervacija zračnih linija. Zbog svoje uredne organizacije i jednostavne dostupnosti, strukturirani podaci su korisni i učinkoviti u radu s velikim količinama informacija. Međutim, dok bušite crno ulje skriveno u nepreglednoj količini podataka koje svakodnevno proizvodi čovječanstvo, potraga za strukturiranim podacima nije ništa drugo nego grebanje po površini.

Što su nestrukturirani podaci?

Velika većina podataka pronađenih u organizaciji je nestrukturirana, a neki ih procjenjuju do 80 posto trenutno dostupnih podataka. Po definiciji, nestrukturirani podaci su sve što nema unutarnju strukturu koju je moguće prepoznati. Međutim, neke vrste podataka spadaju u ovu kategoriju zaista imati neki oblik nejasne unutarnje strukture, ali ne uklapa se u bazu podataka ili proračunsku tablicu.

Bez grešaka, bez stresa - Vaš korak po korak vodič za stvaranje softvera koji mijenja život bez uništavanja života

Ne možete poboljšati svoje programiranje kad nikoga nije briga za kvalitetu softvera.

Većina poslovnih podataka je nestrukturirana, u rasponu od interakcija s korisnicima, datoteka, web dnevnika, videozapisa i drugog multimedijskog sadržaja, automatizacije prodaje, postova i društvenih medija. Ne treba objašnjavati koliko ti podaci mogu biti vrijedni ako bi se mogli minirati, organizirati i analizirati.

Većina nestrukturiranih podataka generiraju ljudi te ih na taj način razumiju drugi ljudi. To znači da urednija računalna inteligencija ne razumije ovu vrstu informacija jer je previše udaljena od linearnosti strojnog jezika i strukturiranih baza podataka.

Koji padaju između: polustrukturirani podaci

Polstrukturirani podaci treća su vrsta podataka koji predstavljaju mnogo manji dio cijele pite (5-10 posto). Doslovno strukturirani podaci između oba svijeta, polustrukturirani podaci sadrže unutarnje semantičke oznake i oznake koje identificiraju odvojene elemente, ali nedostaje im struktura potrebna za uklapanje u relacijsku bazu podataka.

Na primjer, s mogu izgledati kao strukturirani podaci jer bi ih mogli kategorizirati po datumu, veličini datoteke ili vremenu. No, nisu, budući da su najvrjednije informacije pronađene unutar njih, a ne relativno jednostavnih oznaka. Ne mogu biti uistinu raspoređeni po sadržaju i temi, jer ljudi ne govore u tako strogim obrascima da ih stroj može nedvosmisleno razumjeti. Ostali primjeri polustrukturiranih podataka uključuju NoSQL baze podataka, otvoreni standard JSON i označni jezik XML.

Polstrukturirani podaci obično se pretražuju i katalogiziraju za analizu korištenjem analize metapodataka. Na primjer, rentgenski pregled sastoji se od ogromnog broja piksela koji tvore sliku - koji su inherentno nestrukturirani podaci kojima se ne može pristupiti. No datoteka za skeniranje i dalje će sadržavati dio metapodataka koji pruža informacije o njima, poput napomena i korisničkog ID-a.

Mogu li se nestrukturirani podaci transformirati u strukturirane podatke?

Temeljni izazov s kojim se mora suočiti svaki analitičar podataka jest organiziranje dostupnih informacija na uredan i uredan način kako bi im se moglo pristupiti i razumjeti. Alati za prikupljanje podataka obično nisu opremljeni za raščlanjivanje informacija koje su, po definiciji, previše srodne ljudskom jeziku, što znači da ih može prikupljati i kategorizirati samo drugi čovjek.

Međutim, sama količina nestrukturiranih podataka čini svaki pokušaj pohrane ili organiziranja izuzetno napornim i skupim. Skup podataka koji dolazi iz, recimo, internetske tražilice toliko je masivan da većina elemenata zahtijeva ogromna ulaganja u smislu rada i resursa samo da bi se izvukli najosnovniji. Čak i najučinkovitije tehnike iskopavanja podataka i dalje nedostaju znatnu količinu informacija koje se nalaze na webu i, što je još gore, unutar dubokog weba.

Ali tehnike postoje. I razvijaju se nevjerojatnom brzinom. Na primjer, metapodaci bi se mogli koristiti za povezivanje strukturiranih i nestrukturiranih podataka. Podaci prikupljeni mogu se filtrirati i indeksirati i od strane korisnika i algoritama, a samo se analiziraju relevantni podaci. Ostala rješenja uključuju "rješavanje podataka", što je postupak putem kojeg složeni podaci postupno se organiziraju od strane netehničkih korisnika. (Više o običnim korisnicima koji rukuju podacima potražite u odjeljku Kako veliki podaci mogu pomoći u samoposluživanju analitike.)

U određenom trenutku moći ćemo učinkovito transformirati ove masovno neorganizirane količine informacija u više organizirani i restrukturirani format. Možda ne danas, možda ne sutra, ali uskoro ćemo moći napasti najveći trezor koji je čovječanstvo ikad vidjelo: veliki podaci.