7 stvari koje treba znati o Hadoopu

Video: 🐕 Osnovna Dresura Pasa – Top 10 Najosnovnijih Naredba Koje Svaki Pas Mora Znati!

Sadržaj

Kako je Hadoop započeo?
Što je toliko važno u vezi s Hadoopom?
Što je shema na čitanju?
Što je košnica?
Kakve podatke analizira Hadoop?
Možete li dati primjer Hadoopa u stvarnom svijetu?
Je li Hadoop već zastario ili se samo pretvara?

Izvor: Pressureua / Dreamstime.com

Oduzeti:

Hadoop već godinama pomaže u analiziranju podataka, ali vjerojatno postoji više od nekoliko stvari koje o tome ne znate.

Što je Hadoop? To je žuti slon igračka. Nije ono što ste očekivali? Kako bi bilo o ovome: Doug Cutting - ko-tvorac ovog softverskog projekta s otvorenim kodom - ime je posudio od svog sina koji je slučajno nazvao svog igračkog slona Hadoopa. Ukratko, Hadoop je programski okvir koji je razvila Apache Software Foundation koja se koristila za razvoj raspodijeljenog računanja koje zahtijeva podatke. A njegova ključna komponenta u drugom čitatelju buzzword-a nikad ne može dobiti dovoljno: velikih podataka. Evo sedam stvari koje biste trebali znati o ovom jedinstvenom, besplatno licenciranom softveru.

Kako je Hadoop započeo?

Prije dvanaest godina Google je izgradio platformu za manipulaciju ogromnim količinama podataka koje je prikupljao. Kao što to tvrtka često čini, i Google je svoj dizajn učinio dostupnim javnosti u obliku dvaju radova: Google File System i MapReduce.

U isto vrijeme, Doug Cutting i Mike Cafarella radili su na Nutchu, novoj tražilici. Njih dvoje su se također borili kako obrađivati velike količine podataka. Tada su dvojica istraživača navukli Googleove radove. Taj sretan presjek promijenio je sve uvodeći Cutting i Cafarella u bolji datotečni sustav i način za praćenje podataka, što je na kraju dovelo do stvaranja Hadoopa.

Što je toliko važno u vezi s Hadoopom?

Danas je prikupljanje podataka lakše nego ikad. Imati sve ove podatke pruža mnogo mogućnosti, ali postoje i izazovi:

Ogromne količine podataka zahtijevaju nove metode obrade.
Podaci koji se snimaju u nestrukturiranom su obliku.

Da bi riješili izazove manipulacije ogromnim količinama nestrukturiranih podataka, Cutting i Cafarella smislili su dvodijelno rješenje. Da bi riješio problem s količinom podataka, Hadoop zapošljava distribuirano okruženje - mrežu robnih poslužitelja - stvarajući klaster paralelne obrade, koji donosi više snage obrade u odnosu na dodijeljeni zadatak.

Zatim su morali rješavati nestrukturirane podatke ili podatke u formatima koji standardni sustavi relacijskih baza podataka nisu mogli obraditi. Cutting i Cafarella dizajnirali su Hadoop za rad s bilo kojom vrstom podataka: strukturiranim, nestrukturiranim, slikama, čak i audio datotekama. Ovaj Cloudera (Hadoop integrator) bijeli papir objašnjava zašto je to važno:

"Čineći sve svoje podatke upotrebljivim, a ne samo ono što se nalazi u vašim bazama podataka, Hadoop vam omogućuje otkrivanje skrivenih odnosa i otkriva odgovore koji su uvijek bili nedostupni. Možete početi donositi više odluka na temelju teških podataka, umjesto lova i gledati na kompletnim skupima podataka, a ne samo uzoraka i sažetaka. "

Što je shema na čitanju?

Kao što je već spomenuto, jedna od prednosti Hadoopa je njegova sposobnost da obrađuje nestrukturirane podatke. U određenom smislu, to je "udaranje limenke niz cestu." Podaci na kraju trebaju neku vrstu strukture da bi ih mogli analizirati.

Tu se pojavljuje shema čitanja. Čitana shema je rješavanje u kojem se formatu podaci nalaze, gdje možete pronaći podatke (zapamtite da su podaci raštrkani na nekoliko poslužitelja) i što treba učiniti s podacima - nije jednostavan zadatak. Rečeno je da manipulacija podacima u Hadoop sustavu zahtijeva vještine poslovnog analitičara, statističara i Java programera. Nažalost, nema puno ljudi s tim kvalifikacijama.

Što je košnica?

Ako bi Hadoop uspio, rad s podacima morao je biti pojednostavljen. Dakle, grupa otvorenog koda je započela s radom i stvorila košnicu:

"Hive pruža mehanizam za strukturiranje tih podataka i ispitivanje podataka koristeći jezik sličan SQL-u pod nazivom HiveQL. Istovremeno, ovaj jezik također omogućuje tradicionalnim programerima za mapiranje / smanjivanje da uključe svoje prilagođene preslikače i reduktore kada je to nezgodno ili neučinkovito za izražavanje ove logike u HiveQLu. "
Hive omogućuje najbolje iz oba svijeta: osoblje baze podataka upoznato sa SQL naredbama može manipulirati podacima, a programeri upoznati sa shemom u procesu čitanja još uvijek mogu kreirati prilagođene upite.

Kakve podatke analizira Hadoop?

Web analitika je prvo što vam padne na pamet, analiza web dnevnika i web prometa radi optimizacije web stranica. na primjer, definitivno se bavi web analitikom, koristeći Hadoop za sortiranje terabajta podataka koje tvrtka skuplja.

Tvrtke koriste Hadoop klastere za analizu rizika, otkrivanje prijevara i segmentaciju na osnovi kupaca. Komunalne tvrtke koriste Hadoop za analizu podataka senzora iz njihove električne mreže, omogućujući im da optimiziraju proizvodnju električne energije. Velike tvrtke poput Target, 3M i Medtronics koriste Hadoop za optimizaciju distribucije proizvoda, procjene poslovnog rizika i segmentacije na osnovi kupaca.

I u Hadoop se ulažu sveučilišta. Brad Rubin, izvanredni profesor na Sveučilišnom St. Thomas diplomskom programu iz softvera, spomenuo je da njegova stručnost Hadoop pomaže sortirati kroz obilne podatke prikupljene od strane istraživačkih skupina na sveučilištu.

Možete li dati primjer Hadoopa u stvarnom svijetu?

Jedan od poznatijih primjera je TimesMachine. New York Times ima zbirku TIFF slika na cijelim stranicama novina, povezanih metapodataka i članaka od 1851. do 1922., koji sadrže terabajte podataka. Derek Gottfrid iz NYT-a, koji koristi EC2 / S3 / Hadoop sustav i specijalizirani kod:

"Uneseno je 405.000 vrlo velikih TIFF slika, 3.3 milijuna članaka u SGML-u i 405.000 xml datoteka koji preslikavaju članke u pravokutne regije u TIFF-ovima. Ovi podaci pretvoreni su u web-prihvatljivije 810.000 PNG slika (sličice i pune slike) i 405.000 JavaScript datoteka. "
Koristeći poslužitelje u oblaku Amazon Web Services, Gottfrid je spomenuo da su mogli obraditi sve podatke potrebne za TimesMachine za manje od 36 sati.

Je li Hadoop već zastario ili se samo pretvara?

Hadoop postoji već više od desetljeća. To mnogi kažu da je zastarjelo. Jedan stručnjak, dr. David Rico, rekao je da su "IT proizvodi kratkotrajni. U pasjih godina Googles proizvodi su oko 70, dok Hadoop 56."

Možda postoji istina o onome što Rico kaže. Čini se da je Hadoop prošao kroz glavni remont. Kako bih saznao više o tome, Rubin me pozvao na sastanak korisničke grupe Twin Cities Hadoop, a tema razgovora bila je Uvod u PRIJAVU:

"Apache Hadoop 2 uključuje novi MapReduce motor koji ima niz prednosti u odnosu na prethodnu implementaciju, uključujući bolju skalabilnost i korištenje resursa. Nova implementacija izgrađena je na općem sustavu upravljanja resursima za pokretanje distribuiranih aplikacija koji se zove YARN."Hadoop dobiva puno zujanja u krugovima za upravljanje bazama podataka i sadržajem, ali još uvijek postoji mnogo pitanja oko toga i kako se najbolje može koristiti. Ovo je samo nekoliko. Ako ih imaš više, ti na naš način. Pa odgovorite na one najbolje na Techopedia.com.