Apache Spark

Autor: Eugene Taylor
Datum Stvaranja: 8 Kolovoz 2021
Datum Ažuriranja: 1 Srpanj 2024
Anonim
Что такое Apache Spark
Video: Что такое Apache Spark

Sadržaj

Definicija - Što znači Apache Spark?

Apache Spark je program otvorenog koda koji se koristi za analizu podataka. To je dio većeg skupa alata, uključujući Apache Hadoop i ostale otvorene izvore za današnju analitičku zajednicu.


Stručnjaci opisuju ovaj relativno novi softver otvorenog koda kao alat za računalno klaster analiza podataka. Može se koristiti s distribuiranim datotečnim sustavom Hadoop (HDFS), koji je posebna Hadoop komponenta koja olakšava komplicirano rukovanje datotekama.

Neki IT stručnjaci opisuju uporabu Apache Spark-a kao potencijalnog zamjene za komponentu Apache Hadoop MapReduce. MapReduce je također alat za grupiranje koji pomaže programerima da obrađuju velike skupove podataka. Oni koji razumiju dizajn Apache Spark, ističu da on u nekim situacijama može biti i mnogo puta brži od MapReducea.

Uvod u Microsoft Azure i Microsoft Cloud | Kroz ovaj vodič naučit ćete o čemu se radi računalstvo u oblaku i kako vam Microsoft Azure može pomoći da migrirate i pokrenete svoje poslovanje iz oblaka.

Tehopedija objašnjava Apache Spark

Oni koji izvještavaju o modernoj uporabi Apache Spark pokazuju da kompanije to koriste na različite načine. Jedna uobičajena upotreba je za objedinjavanje podataka i njihovo strukturiranje na rafiniranije načine. Apache Spark također može biti od pomoći pri analitičkom radu strojnog učenja ili klasifikaciji podataka.


Obično se organizacije suočavaju s izazovom pročišćavanja podataka na učinkovit i pomalo automatiziran način, pri čemu se Apache Spark može koristiti za takve zadatke. Neki također impliciraju da korištenje Sparka može pomoći u pristupu onima koji manje poznaju programiranje i žele se uključiti u postupanje s analitikom.

Apache Spark uključuje API-je za Python i srodne jezike softvera.