Hadoop Analytics: Za kombiniranje podataka potreban je izvor-agnostski pristup

Autor: Laura McKinney
Datum Stvaranja: 1 Travanj 2021
Datum Ažuriranja: 16 Svibanj 2024
Anonim
Hadoop Analytics: Za kombiniranje podataka potreban je izvor-agnostski pristup - Tehnologija
Hadoop Analytics: Za kombiniranje podataka potreban je izvor-agnostski pristup - Tehnologija


Izvor: Agsandrew / Dreamstime.com

Oduzeti:

Izvorno-agnostičke metode idealne su za obradu podataka za Hadoop analizu.

Kombiniranje izvora podataka u Hadoopu je složen posao. Neki od razloga za to su:

  • Prilagođene skripte specifične za izvor koji kombiniraju izvore podataka problematične su.
  • Korištenje integracije podataka ili alata za znanost podataka unosi previše nesigurnosti.
  • Dodavanje podataka iz vanjskih izvora gotovo je nemoguće.

Danas ću razgovarati o tome kako se Hadoop analitika poboljšava kroz izvorno-agnostičke tehnologije koje olakšavaju kombiniranje unutarnjih i vanjskih izvora podataka. Osim što ću opisati kako izvorno-agnostičke metode djeluju, također ću opisati zašto su Hadoopovoj analizi potrebne ugrađene sposobnosti inteligencije i prijenosa znanja, razumijevanje odnosa i karakteristika podataka te skalabilna i visoko učinkovita arhitektura.


  • Izvorno-agnostičke metode uključuju fleksibilan model entitetske razlučivosti koji omogućava dodavanje novih izvora podataka koristeći statistički ispravne, ponovljive procese znanosti o podacima. Ovi procesi koriste algoritme za prikupljanje znanja iz podataka i procjenu, analizu radi utvrđivanja najboljeg pristupa integraciji.
    Bez obzira koliko su izvorni zapisi fragmentirani ili nepotpuni, Hadoop analitičke tehnologije trebaju biti izvorne agnostike i moći unificirati podatke bez promjene ili manipuliranja izvornim podacima. Te bi tehnologije također trebale stvoriti indekse entiteta na temelju podataka i atributa o pojedincima i njihovom postojanju u svijetu. Da bi to postigli, moraju razumjeti sadržaj podataka, kon, strukturu i kako se komponente međusobno odnose.
  • Ugrađena znanost o podacima i stručnost za integraciju podataka omogućuje da se podaci očiste, standardiziraju i povežu s visokim stupnjem točnosti i preciznosti. Alati i izvještaji za vizualizaciju pomažu analitičarima u procjeni i učenju podataka i obavljaju podešavanje sustava na temelju znanja stečenog iz različitih koraka u procesu.
  • Razumijevanje odnosa između entiteta rezultira preciznijim postupcima rješavanja entiteta. Kako entiteti u stvarnom svijetu nisu samo zbroj njihovih atributa, već i njihova povezanost, potrebno je upotrijebiti znanje o odnosima za otkrivanje kada su zapisi isti. To je posebno važno za rukovanje kutnim slučajevima i velikim podacima.
  • Karakterizacija podataka poboljšava analizu, rješavanje i povezivanje podataka utvrđivanjem i pružanjem uvjerenja za podatke unutar izvora podataka. Može pomoći u provjeri sadržaja, gustoće i distribucije podataka unutar stupaca strukturiranih informacija. Karakterizacija podataka može se koristiti i za identificiranje i izdvajanje važnih podataka povezanih s entitetom (ime, adresa, datum rođenja itd.) Iz nestrukturiranih i polustrukturiranih izvora za povezanost sa strukturiranim izvorima.
  • Skalabilna, paralelna arhitektura brzo provodi analitiku čak i kad podržava stotine strukturiranih, polustrukturiranih i nestrukturiranih izvora podataka i desetine milijardi zapisa.

Hadoop mijenja način na koji svijet obavlja analitiku. Kada se u Hadoop ekosustave dodaju nove analitičke informacije o izvorima, organizacije mogu povezati točke u mnogim unutarnjim i vanjskim izvorima podataka i steći uvide koji ranije nisu bili mogući.


Ovaj je članak izvorno objavljen na Novetta.com. Ovdje je trska s dopuštenjem. Novetta zadržava sva autorska prava.