10 najvažnijih Hadoop uvjeta koje morate znati i razumjeti

Video: Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn

Sadržaj

Ali prvo, pogledajte kako djeluje Hadoop
Hadoop Common
Hadoop distribuirani datotečni sustav (HDFS)
MapReduce
HBase
Košnica
Bez grešaka, bez stresa - Vaš korak po korak vodič za stvaranje softvera koji mijenja život bez uništavanja života
Svinja Apače
Apache Spark
Apache Cassandra
Još jedan pregovarač o resursima (YARN)
Impala

Izvor: Trueffelpix / Dreamstime.com

Oduzeti:

Da biste zaista razumjeli velike podatke, morate malo razumjeti Hadoop i jezik oko njega.

Veliki podaci, upečatljiv naziv za ogromne količine strukturiranih, nestrukturiranih ili polustrukturiranih podataka, notorno je teško uhvatiti, pohraniti, upravljati, dijeliti, analizirati i vizualizirati, barem koristeći tradicionalne baze podataka i softverske aplikacije. Zbog toga velike tehnologije podataka mogu učinkovito i učinkovito upravljati i obraditi ogromne količine podataka. I njegov Apache Hadoop koji pruža okvir i pridružene tehnologije za distribuciju velikih skupova podataka preko klastera računala. Da biste shvatili velike podatke, morate malo razumjeti Hadoop. Evo, pogledajte vrhunske pojmove koje ćete čuti u vezi s Hadoopom - i što oni znače.

Ali prvo, pogledajte kako djeluje Hadoop

Prije nego što uđete u eko-sustav Hadoop, morate jasno razumjeti dvije temeljne stvari. Prvi je način na koji se datoteka pohranjuje u Hadoop; drugo je kako se obrađuju pohranjeni podaci. Sve tehnologije povezane sa Hadoop-om uglavnom rade na ova dva područja i čine ih više prilagođenima korisnicima. (Pronađite osnove kako Hadoop djeluje u načinu Kako Hadoop pomaže riješiti problem velikih podataka.)

Sada, o uvjetima.

Hadoop Common

Hadoop okvir ima različite module za različite funkcionalnosti i ti moduli mogu međusobno komunicirati iz različitih razloga. Hadoop Common može se definirati kao zajednička knjižnica alata za podršku tim modulima u ekosustavu Hadoop. Te su alate u osnovi Java, arhivirane (JARs) datoteke. Ove alate uglavnom koriste programeri i programeri tijekom vremena razvoja.

Hadoop distribuirani datotečni sustav (HDFS)

Hadoop distribuirani datotečni sustav (HDFS) podprojekt je Apache Hadoop u sklopu Apache Software Foundation. Ovo je okosnica pohrane u Hadoop okviru. To je distribuirani, skalabilni i otporni na greške datotečni sustav koji se proteže kroz više robnih hardvera poznatih kao Hadoop klaster. Cilj HDFS-a je pohraniti ogromnu količinu podataka s visokim pristupom podacima aplikacije. HDFS slijedi master / slave arhitektura, gdje je master poznat kao NameNode, a robovi su poznati kao DataNodes.

MapReduce

Hadoop MapReduce također je podprojekt softverske fondacije Apache. MapReduce je zapravo softverski okvir čisto napisan na Javi. Njen primarni cilj je obrada velikih skupova podataka u distribuiranom okruženju (koji se sastoji od robnog hardvera) na potpuno paralelan način. Okvir upravlja svim aktivnostima poput rasporeda poslova, nadgledanja, izvršavanja i ponovnog izvršavanja (u slučaju neuspjelih zadataka).

HBase

Apache HBase poznata je kao Hadoop baza podataka. To je stupac, distribuirana i skalabilna trgovina velikih podataka. Poznata je i kao vrsta NoSQL baze podataka koja nije sustav upravljanja relacijskim bazama podataka. HBase aplikacije su također napisane na Javi, izgrađene na vrhu Hadoopa i rade na HDFS. HBase se koristi kada trebate čitanje / pisanje u stvarnom vremenu i slučajni pristup velikim podacima. HBase se modelira na temelju Googles BigTable koncepata.

Košnica

Apache Hive je softverski sustav za skladištenje podataka otvorenog koda. Košnicu je izvorno razvila prije nego što je ušla u program Apache Software Foundation i postala open source. Omogućuje upravljanje i postavljanje upita velikih skupova podataka na distribuiranoj Hadoop kompatibilnoj pohrani. Hive obavlja sve svoje aktivnosti koristeći jezik sličan SQL-u poznat kao HiveQL. (Saznajte više u kratkom uvodu u košnicu Apache i svinje.)

Bez grešaka, bez stresa - Vaš korak po korak vodič za stvaranje softvera koji mijenja život bez uništavanja života

Ne možete poboljšati svoje programiranje kad nikoga nije briga za kvalitetu softvera.

Svinja Apače

Svinju je prvotno pokrenuo Yahoo za razvoj i izvršavanje poslova MapReduce na velikoj količini distribuiranih podataka. Sada je to postao projekt otvorenog koda u sklopu Apache Software Foundation. Apache Pig može se definirati kao platforma za učinkovit pristup vrlo velikim skupovima podataka. Infrastrukturni sloj svinja proizvodi sekvence poslova MapReduce radi stvarne obrade. Sloj jezika svinja poznat je kao svinjski latinski i pruža SQL-ove značajke za izvršavanje upita na distribuiranim skupovima podataka.

Apache Spark

Spark je izvorno razvio AMPLab u UC Berkeley. Projekt na najvišoj razini Apache postao je u veljači 2014. Apache Spark može se definirati kao open source, opće namjerni klaster-računalni okvir koji analizu podataka čini znatno bržom. Izgrađen je na vrhu distribuiranog datotečnog sustava Hadoop, ali nije povezan s okvirom MapReduce. Performanse iskre su mnogo brže u usporedbi s MapReduceom. Pruža API-je visoke razine u Scala, Python i Java.

Apache Cassandra

Apache Cassandra još je jedna otvorena koda NoSQL baze podataka. Cassandra se široko koristi za upravljanje velikim količinama strukturiranih, polustrukturiranih i nestrukturiranih podataka u rasponu od više podataka i u oblaku za pohranu podataka. Cassandra je dizajnirana na temelju "masterless" arhitekture, što znači da ne podržava model master / slave. U ovoj su arhitekturi svi čvorovi isti, a podaci se distribuiraju automatski i jednako po svim čvorovima. Cassandras-ove najvažnije značajke su neprekidna dostupnost, linearna skalabilnost, ugrađena / prilagodljiva replikacija, nema jedinstvene točke kvara i operativna jednostavnost.

Još jedan pregovarač o resursima (YARN)

Još jedan pregovarač o resursima (YARN) poznat je i pod nazivom MapReduce 2.0, ali on zapravo potpada pod Hadoop 2.0. Preja se može definirati kao okvir za raspored poslova i upravljanje resursima. Osnovna ideja YARN-a je zamijeniti funkcionalnosti JobTracker dva odvojena demona odgovorna za upravljanje resursima i zakazivanje / nadzor. U ovom će novom okviru postojati globalni ResourceManager (RM) i master specifičan za aplikaciju poznat kao ApplicationMaster (AM). Global ResourceManager (RM) i NodeManager (po čvoru slave) tvore stvarni okvir za računanje podataka. Postojeće MapReduce v1 aplikacije mogu se pokrenuti i na YARN, ali te se aplikacije moraju ponovno prevesti s Hadoop2.x staklenkama.

Impala

Impala se može definirati kao pokretač SQL upita s masivnom paralelnom obradom (MPP). Izvorno se kreće na okviru Apache Hadoop. Impala je osmišljena kao dio ekosustava Hadoop. Dijeli isti fleksibilni datotečni sustav (HDFS), metapodatke, upravljanje resursima i sigurnosne okvire kao i druge komponente ekosustava Hadoop. Najvažnija je točka napomenuti da je Impala mnogo brži u obradi upita u odnosu na košnicu. Ali također treba imati na umu da je Impala namijenjena upitu / analizi malog niza podataka, a uglavnom je zamišljena kao analitički alat koji radi na obrađenim i strukturiranim podacima.

Hadoop je važna tema u IT-u, ali postoje oni koji su sumnjičavi prema njegovoj dugoročnoj održivosti. Pročitajte više u Što je Hadoop? Teorija cinice.