A big data time r infrastruktúra közötti egyezés; el Spark nyer

Körülbelül az elmúlt tíz évben a Hadoop mozgalom három nyílt forráskódú kerete kínálta fel az adatfolyamok valós idejű feldolgozását. Ugyanazon a rajtvonalon maradt, hol vannak ma ?

A nagy adatok tekintetében bizonyos számú felhasználási eset nem elégedett az adatok kötegelt (vagy kötegelt) feldolgozásával. A csalás, a kiberbiztonság elleni küzdelem, az ipari termelés rendellenességeinek felderítése, a közúti forgalom figyelemmel kísérése vagy a termékek e-kereskedelmi webhelyen történő ajánlása megköveteli az adatfolyamok valós időben történő feldolgozását, hogy szinte azonnal eredményt adjanak. A probléma megválaszolására a 2010-es évek fordulóján három, az adatfolyamokra szakosodott nyílt forráskódú keretrendszer jelent meg a Hadoop-galaxisban. Vagy megjelenésük sorrendjében: Spark, Flink és Storm. Ehhez a trióhoz hozzáadhatjuk a Kafka Stream-eket, amelyek streaming dimenziót adnak a Kafka-nak, az eseményfeldolgozásnak szentelt keretrendszernek. Mindezeket az Apache licenc alatt kínáljuk.

Eredetileg ezek a keretek két különböző filozófiára reagálnak. A Flink és a Storm valós idejű feldolgozást végeznek - valós időben, natív módon -, miközben a Spark mikrotételenként dolgozik, hogy minden X milliszekundumban feldolgozza és eredményezze a valós idejű megközelítést.

A valós idejű big data infrastruktúrák összehasonlítása Apache Storm Apache Spark Apache Flink az alkotás éve Eredet A feldolgozás jellege Támogatott nyelvek A Hadoop disztribútorok integrálják a keretrendszert Kiadói partnerségek Kereskedelmi szerkesztő Felügyelt szolgáltatás felhő módban Hivatkozások

2011	2009	2010
Twitter	UC Berkeley	Berlini Egyetem
Események feldolgozása	Mikrotételek	Valós idejű feldolgozás
Clojure, Java	Java, Python, R, Scala	Java, Python, Scala
-	Cloudera, Hortonworks és MapR	-
-	Talend, Dataiku	Talend
-	Adattárak	Data Artisans (az Alibaba tulajdonosa)
Apache Storm az Azure HDInsight-on	Apache Spark az Amazon EMR-en, Spark az Azure HDInsight-on, Cloud Dataproc a Google Cloud szolgáltatásból (Spark + Hadoop)	Apache Flink az Amazon EMR-en
Yahoo!, Twitter, Spotify, Groupon.	Uber, ING, Criteo, Zalando.	Alibaba, AWS, CapitalOne, OVH, Bouygues Telecom.

Christophe Parageaud, az Ippon Technologies vezető adat- és Java architektúra-szakértője szerint "más kiválasztási kritériumokat is figyelembe kell venni, például a keret érettségét, népszerűségét a fejlesztői közösségekben vagy akár a megoldás támogatását egy kereskedelmi szerkesztő által. Annyi garancia a fenntarthatóságra és a skálázhatóságra. "

Spark, a legnépszerűbb

Népszerűségét tekintve a Spark előrelépett versenytársa előtt. Hogy erről meggyőződhessen, csak meg kell látnia a Google Trends keretrendszeréhez társított lekérdezések számát. A Berkeley-i Kaliforniai Egyetem rangos AMPLab-jában tervezett keretrendszernek valójában minden papíron tetszetős. Ami a fő hátrányát jelentette (az adatok feldolgozása mikro-kötegelt módban és nem patakban), két évvel ezelőtt leküzdötte a 2.0-ás verzió kiadását. Ebből az alkalomból az új Spark Streaming funkció bevezette, amint a neve is mutatja, az adatfolyamok kezelését. Ez a verzió óta a Spark kapcsolódik a TensorFlow-hoz is, hogy integrálja a mély tanulási dimenziót. "Páratlan plusz" Razvan Bizoï, az adatbázis-architektúra független tanácsadója és az Orsys intézet oktatója szerint.