Izvor: Agsandrew / Dreamstime.com
Oduzeti:
Izvorno-agnostičke metode idealne su za obradu podataka za Hadoop analizu.
Kombiniranje izvora podataka u Hadoopu je složen posao. Neki od razloga za to su:
- Prilagođene skripte specifične za izvor koji kombiniraju izvore podataka problematične su.
- Korištenje integracije podataka ili alata za znanost podataka unosi previše nesigurnosti.
- Dodavanje podataka iz vanjskih izvora gotovo je nemoguće.
Danas ću razgovarati o tome kako se Hadoop analitika poboljšava kroz izvorno-agnostičke tehnologije koje olakšavaju kombiniranje unutarnjih i vanjskih izvora podataka. Osim što ću opisati kako izvorno-agnostičke metode djeluju, također ću opisati zašto su Hadoopovoj analizi potrebne ugrađene sposobnosti inteligencije i prijenosa znanja, razumijevanje odnosa i karakteristika podataka te skalabilna i visoko učinkovita arhitektura.
- Izvorno-agnostičke metode uključuju fleksibilan model entitetske razlučivosti koji omogućava dodavanje novih izvora podataka koristeći statistički ispravne, ponovljive procese znanosti o podacima. Ovi procesi koriste algoritme za prikupljanje znanja iz podataka i procjenu, analizu radi utvrđivanja najboljeg pristupa integraciji.
Bez obzira koliko su izvorni zapisi fragmentirani ili nepotpuni, Hadoop analitičke tehnologije trebaju biti izvorne agnostike i moći unificirati podatke bez promjene ili manipuliranja izvornim podacima. Te bi tehnologije također trebale stvoriti indekse entiteta na temelju podataka i atributa o pojedincima i njihovom postojanju u svijetu. Da bi to postigli, moraju razumjeti sadržaj podataka, kon, strukturu i kako se komponente međusobno odnose. - Ugrađena znanost o podacima i stručnost za integraciju podataka omogućuje da se podaci očiste, standardiziraju i povežu s visokim stupnjem točnosti i preciznosti. Alati i izvještaji za vizualizaciju pomažu analitičarima u procjeni i učenju podataka i obavljaju podešavanje sustava na temelju znanja stečenog iz različitih koraka u procesu.
- Razumijevanje odnosa između entiteta rezultira preciznijim postupcima rješavanja entiteta. Kako entiteti u stvarnom svijetu nisu samo zbroj njihovih atributa, već i njihova povezanost, potrebno je upotrijebiti znanje o odnosima za otkrivanje kada su zapisi isti. To je posebno važno za rukovanje kutnim slučajevima i velikim podacima.
- Karakterizacija podataka poboljšava analizu, rješavanje i povezivanje podataka utvrđivanjem i pružanjem uvjerenja za podatke unutar izvora podataka. Može pomoći u provjeri sadržaja, gustoće i distribucije podataka unutar stupaca strukturiranih informacija. Karakterizacija podataka može se koristiti i za identificiranje i izdvajanje važnih podataka povezanih s entitetom (ime, adresa, datum rođenja itd.) Iz nestrukturiranih i polustrukturiranih izvora za povezanost sa strukturiranim izvorima.
- Skalabilna, paralelna arhitektura brzo provodi analitiku čak i kad podržava stotine strukturiranih, polustrukturiranih i nestrukturiranih izvora podataka i desetine milijardi zapisa.
Hadoop mijenja način na koji svijet obavlja analitiku. Kada se u Hadoop ekosustave dodaju nove analitičke informacije o izvorima, organizacije mogu povezati točke u mnogim unutarnjim i vanjskim izvorima podataka i steći uvide koji ranije nisu bili mogući.
Ovaj je članak izvorno objavljen na Novetta.com. Ovdje je trska s dopuštenjem. Novetta zadržava sva autorska prava.