Zašto je iskre velika platforma podataka za budućnost

Video: The Third Industrial Revolution: A Radical New Sharing Economy

Sadržaj

Što je iskre Apache?
Zašto je iskre toliko važna u odnosu na Hadoop
Koje su iskre jedinstvene značajke?
Zašto iskra nije zamjena za Hadoop
Što tvrtke misle o iskri i hadopu
Praktične provedbe
Zaključak

Izvor: Snake3d / Dreamstime.com

Oduzeti:

Apache Spark je alat otvorenog koda za obradu velikih podataka koji se uvlače na (i na neki način nadmašuju) Hadoop.

Apache Hadoop već je duže vrijeme temelj za velike aplikacije za podatke i smatra se osnovnom podatkovnom platformom za sve ponude s velikim podacima. Međutim, baza podataka i računanje u memoriji dobivaju na popularnosti zbog bržih performansi i brzih rezultata. Apache Spark novi je okvir koji koristi mogućnosti u memoriji za brzu obradu (gotovo 100 puta brže od Hadoopa). Dakle, proizvod Spark sve se više koristi u svijetu velikih podataka, a uglavnom za bržu obradu.

Što je iskre Apache?

Apache Spark je okvir otvorenog koda za obradu ogromnih količina podataka (velikih podataka) brzinom i jednostavnošću. Prikladan je za analitičke aplikacije temeljene na velikim podacima. Spark se može koristiti u okruženju Hadoop, samostalno ili u oblaku. Razvijen je na Kalifornijskom sveučilištu, a potom je ponuđen softverskoj fondaciji Apache. Stoga pripada zajednici otvorenog koda i može biti vrlo isplativa, što dodatno omogućava amaterskim programerima da rade s lakoćom. (Da biste saznali više o Hadoops otvorenom izvoru, pogledajte Što je utjecaj otvorenog koda na ekosustav Apache Hadoop?)

Glavna svrha Sparka je da programerima nudi aplikacijski okvir koji djeluje oko centrirane strukture podataka. Spark je također izuzetno moćan i ima urođenu sposobnost brzog obrađivanja ogromnih količina podataka u kratkom vremenu, pružajući na taj način izuzetno dobre performanse.To ga čini puno bržim od onog za što se kaže da mu je najbliži konkurent, Hadoop.

Zašto je iskre toliko važna u odnosu na Hadoop

Apache Spark oduvijek je poznat po tome što je Hadoop trudio u nekoliko značajki, što vjerojatno objašnjava zašto ostaje tako važan. Jedan od glavnih razloga za to bio bi uzeti u obzir brzinu njegove obrade. U stvari, kao što je već spomenuto, Spark nudi oko 100 puta bržu obradu od Hadoopove MapReduce za istu količinu podataka. Također koristi znatno manje resursa u odnosu na Hadoop, što ga čini isplativijim.

Drugi ključni aspekt u kojem Spark ima prednost jest mogućnost kompatibilnosti s upraviteljem resursa. Poznato je da Apache Spark radi s Hadoop-om, baš kao što radi i MapReduce, no ovaj je trenutno kompatibilan samo s Hadoop-om. Što se tiče Apache Spark, on može raditi s drugim upraviteljima resursa, poput YARN ili Mesos. Znanstvenici s podacima to često navode kao jedno od najvećih područja gdje Spark doista nadmašuje Hadoop.

Kada je u pitanju jednostavna upotreba, Spark se opet čini puno boljim od Hadoopa. Spark ima API-je za nekoliko jezika kao što su Scala, Java i Python, osim što voli i Spark SQL. Relativno je jednostavno pisati korisnički definirane funkcije. Također se može pohvaliti interaktivnim načinom izvođenja naredbi. S druge strane, Hadoop je napisan na Javi i stekao je reputaciju prilično teške za programiranje, iako ima alate koji pomažu u tom procesu. (Da biste saznali više o Spark-u, pogledajte kako Apache Spark pomaže brzom razvoju aplikacija.)

Koje su iskre jedinstvene značajke?

Apache Spark ima neke jedinstvene značajke koje ga uistinu razlikuju od mnogih svojih konkurenata u poslu obrade podataka. Neke od njih ukratko su navedene u nastavku.

Ne možete poboljšati svoje programiranje kad nikoga nije briga za kvalitetu softvera.

Spark također ima urođenu sposobnost učitavanja potrebnih informacija u svoju jezgru pomoću svojih algoritama strojnog učenja. To mu omogućuje da bude izuzetno brz.

Apache Spark ima mogućnost obrade grafova ili čak informacija koje su grafičke prirode, omogućujući tako jednostavnu analizu s puno preciznosti.

Apache Spark ima MLib, što je okvir namijenjen strukturiranom strojnom učenju. Također je pretežno brži u implementaciji od Hadoopa. MLib je također sposoban riješiti nekoliko problema, kao što su statističko očitanje, uzorkovanje podataka i testiranje premisa.

Zašto iskra nije zamjena za Hadoop

Unatoč činjenici da Spark ima nekoliko aspekata zbog kojih Hadoop ruši ruke, postoji nekoliko razloga zbog kojih on još uvijek ne može zamijeniti Hadoop.

Kao prvo, Hadoop jednostavno nudi veći set alata u usporedbi sa Sparkom. Također ima nekoliko praksi koje su prepoznate u industriji. Apache Spark ipak je relativno mlad u domeni i trebat će joj vremena da se izjednači s Hadoop-om.

Hadoop's MapReduce također je postavio određene industrijske standarde kada je u pitanju izvođenje punopravnih operacija. S druge strane, još uvijek se vjeruje da Spark nije u potpunosti spreman za rad s potpunom pouzdanošću. Organizacije koje koriste Spark često ga moraju fino prilagoditi kako bi bile spremne za svoj skup zahtjeva.

Hadoopove MapReduce, koje postoje duže vrijeme od Sparka, također je lakše konfigurirati. To, međutim, nije slučaj za Spark, s obzirom da nudi potpuno novu platformu koja nije testirala grube zakrpe.

Što tvrtke misle o iskri i hadopu

Mnoge su tvrtke već počele koristiti Spark za potrebe obrade podataka, ali tu se priča ne završava. Sigurno ima nekoliko jakih aspekata koji je čine nevjerojatnom platformom za obradu podataka. No, dolazi i sa poštenim udjelom nedostataka koje je potrebno riješiti.

Industrijska je ideja da je Apache Spark ovdje da ostane i da je moguće budućnost za potrebe obrade podataka. Ipak, još uvijek treba proći dosta razvojnih poslova i poliranja koji će mu omogućiti da zaista iskoristi svoj potencijal.

Praktične provedbe

Apache Spark je bio i još uvijek zaposlen u brojnim tvrtkama koje odgovaraju njihovim zahtjevima za obradu podataka. Jedna od najuspješnijih implementacija provela je tvrtka Shopify, koja je željela odabrati prihvatljive trgovine za poslovnu suradnju. Međutim, njegovo je skladište podataka čuvalo vrijeme kada je htjela razumjeti proizvode koje prodaju njegovi kupci. Uz pomoć Sparka, tvrtka je uspjela obraditi nekoliko milijuna zapisa podataka, a zatim je u nekoliko minuta obradila 67 milijuna zapisa. Također je utvrdilo koje trgovine mogu ispunjavati uvjete.

Koristeći Spark, Pinterest je u stanju prepoznati trendove u razvoju, a zatim ga koristi za razumijevanje ponašanja korisnika. To nadalje omogućava bolju vrijednost u Pinterest zajednici. Spark koristi i TripAdvisor, jedno od najvećih svjetskih web stranica za informacije o putovanjima, kako bi se posjetiteljima ubrzao preporuke.

Zaključak

Ne može se sumnjati u vještinu Apache Spark, čak i trenutno, i jedinstveni skup značajki koje donosi na stol. Njegova procesorska snaga i brzina, zajedno sa kompatibilnošću, postavlja ton za neke naredne stvari u budućnosti. Međutim, ono također ima nekoliko područja koja treba poboljšati, ako želi doista ostvariti svoj puni potencijal. Dok je Hadoop i dalje vladao potezima, Apache Spark ima svijetlu budućnost i mnogi ga smatraju budućom platformom za potrebe obrade podataka.