Kudu: Izmjena igara u ekosustavu Hadoop?

Sadržaj

Što je Kudu?
Kakav je trenutni status Kudusa?
Kako Kudu može nadopuniti HDFS / HBase?
Značajke Kudu okvira
Kako Kudu može promijeniti Hadoop ekosustav?
Bez grešaka, bez stresa - Vaš korak po korak vodič za stvaranje softvera koji mijenja život bez uništavanja života
Zaključak

Izvor: Agsandrew / Dreamstime.com

Oduzeti:

Kudu je projekt otvorenog koda koji pomaže u učinkovitijem upravljanju pohranom.

Kudu je novi projekt otvorenog koda koji omogućuje ažuriranje prostora za pohranu. To je dodatak HDFS / HBase, koji pruža uzastopnu pohranu i samo za čitanje. Kudu je prikladniji za brzu analitiku na brzim podacima, što je trenutno potražnja poslovanja. Dakle, Kudu nije samo još jedan projekt ekosustava Hadoop, već ima potencijal promjene tržišta. (Za više informacija o Hadoopu, pogledajte 10 najvažnijih Hadoop uvjeta koje morate znati i razumjeti.)

Što je Kudu?

Kudu je posebna vrsta sustava za pohranu koji pohranjuje strukturirane podatke u obliku tablica. Svaka tablica sadrži unaprijed definirane brojeve stupaca. Svaka od njih ima primarni ključ koji je zapravo grupa jednog ili više stupaca te tablice. Ovaj primarni ključ napravljen je za dodavanje ograničenja i osiguranje stupaca, a također radi i kao indeks, što omogućava jednostavno ažuriranje i brisanje. Te su tablice niz podskupina podataka koji se nazivaju tablete.

Kakav je trenutni status Kudusa?

Kudu je stvarno dobro razvijen i već je spojen s puno značajki. Ipak će joj trebati neko poliranje, što se može učiniti jednostavnije ako korisnici predlože i izvrše neke promjene.

Kudu je potpuno otvoreni izvor i ima Apache Software License 2.0. Također se namjerava podnijeti Apacheu, tako da se može razvijati kao Apache Incubator projekt. To će omogućiti da njegov razvoj napreduje još brže i dodatno će povećati svoju publiku. Nakon određenog vremena, razvoj Kudua učinit će se javno i transparentno. Mnoge tvrtke poput AtScale, Xiaomi, Intel i Splice Machine udružile su se kako bi doprinijele razvoju Kudua. Kudu također ima veliku zajednicu, gdje velik broj publike već daje svoje prijedloge i doprinose. Dakle, ljudi koji pokreću Kuduov razvoj naprijed

Kako Kudu može nadopuniti HDFS / HBase?

Kudu ne treba zamijeniti HDFS / HBase. Zapravo je dizajniran da podrži i HBase i HFDS i pokreće se s njima kako bi povećali svoje mogućnosti. To je zato što HBase i HDFS još uvijek imaju mnoge značajke koje ih na nekim strojevima čine moćnijima od Kudua. U cjelini, takvi će strojevi dobiti više koristi od ovih sustava.

Značajke Kudu okvira

Glavne značajke okvira Kudu su sljedeće:

Izuzetno brzo skeniranje stupaca tablice - Najbolji formati podataka poput Parketa i ORCFile trebaju najbolje postupke skeniranja, što Kudu savršeno rješava. Takvi formati trebaju brzo skeniranje do kojeg može doći samo ako su podaci stupaca pravilno kodirani.
Pouzdanost performansi - Kudu okvir povećava opću pouzdanost Hadoopa zatvarajući mnoge rupe i praznine prisutne u Hadoopu.
Jednostavna integracija s Hadoop-om - Kudu se može lako integrirati s Hadoop-om i njegovim različitim komponentama za veću učinkovitost.
Potpuno otvoreni izvor - Kudu je open-source sustav s licencom Apache 2.0. Ima veliku zajednicu programera iz različitih tvrtki i podrijetla, koji ga redovito ažuriraju i daju prijedloge za promjene.

Kako Kudu može promijeniti Hadoop ekosustav?

Kudu je izgrađen tako da se uklapa u Hadoopov ekosustav i poboljšava njegove značajke. Može se integrirati i s nekim od ključnih komponenti Hadoopa, poput MapReduce, HBase i HDFS. Poslovi MapReduce mogu pružiti podatke ili preuzeti podatke iz Kudu tablica. Te se značajke mogu koristiti i u Spark-u. Poseban sloj čini neke Spark komponente poput Spark SQL i DataFrame dostupne Kuduu. Iako Kudu nije toliko razvijen da zamijeni ove značajke, procjenjuje se da će nakon nekoliko godina biti dovoljno razvijen da to učini. Do tada, integracija između Hadoopa i Kudua je stvarno vrlo korisna i može popuniti velike praznine Hadoopovog ekosustava. (Da biste saznali više o Apache Spark, pogledajte kako Apache Spark pomaže brzom razvoju aplikacija.)

Kudu se može implementirati na više mjesta. Nekoliko primjera takvih mjesta nalazi se u nastavku:

Bez grešaka, bez stresa - Vaš korak po korak vodič za stvaranje softvera koji mijenja život bez uništavanja života

Ne možete poboljšati svoje programiranje kad nikoga nije briga za kvalitetu softvera.

Streaming inputa u skoro realnom vremenu - Na mjestima gdje je potrebno što prije primiti inpute, Kudu može obaviti izvrstan posao. Primjer takvog mjesta je u tvrtkama, gdje velike količine dinamičkih podataka preplavljuju iz različitih izvora i moraju im biti brzo dostupni u stvarnom vremenu.
Aplikacije vremenskih serija s različitim pristupnim uzorcima - Kudu je savršen za aplikacije temeljene na vremenskim serijama jer je jednostavnije za postavljanje tablica i skeniranje pomoću njih. Primjer takve uporabe je u robnim kućama, gdje se stari podaci moraju brzo pronaći i obraditi kako bi se predviđala buduća popularnost proizvoda.
Naslijeđeni sustavi - Mnoge tvrtke koje dobivaju podatke iz različitih izvora i pohranjuju ih na različitim radnim stanicama osjećat će se kao kod kuće kod Kudua. Kudu je izuzetno brz i može se učinkovito integrirati s Impalom za obradu podataka na svim strojevima.
Prediktivno modeliranje - Znanstvenici koji žele dobru platformu za modeliranje mogu koristiti Kudu. Kudu može učiti iz svakog niza podataka koji se u njega ubacuju. Znanstvenik može nekoliko puta pokrenuti i ponovno pokrenuti model da vidi što se događa.

Zaključak

Iako je Kudu još uvijek u fazi razvoja, ima dovoljno potencijala da bude dobar dodatak za standardne Hadoop komponente poput HDFS i HBase. Ima dovoljno potencijala za potpuno mijenjanje ekosustava Hadoop popunjavanjem svih praznina i dodavanjem još nekih značajki. Također je vrlo brz i moćan i može vam pomoći u brzoj analizi i pohrani velikih tablica podataka. Međutim, preostaje još malo posla za učinkovitiju uporabu.