A big data time r infrastruktúra közötti egyezés; el Spark nyer

A nagy adatok tekintetében bizonyos számú felhasználási eset nem elégedett az adatok kötegelt (vagy kötegelt) feldolgozásával. A csalás, a kiberbiztonság elleni küzdelem, az ipari termelés rendellenességeinek felderítése, a közúti forgalom figyelemmel kísérése vagy a termékek e-kereskedelmi webhelyen történő ajánlása megköveteli az adatfolyamok valós időben történő feldolgozását, hogy szinte azonnal eredményt adjanak. A probléma megválaszolására a 2010-es évek fordulóján három, az adatfolyamokra szakosodott nyílt forráskódú keretrendszer jelent meg a Hadoop-galaxisban. Vagy megjelenésük sorrendjében: Spark, Flink és Storm. Ehhez a trióhoz hozzáadhatjuk a Kafka Stream-eket, amelyek streaming dimenziót adnak a Kafka-nak, az eseményfeldolgozásnak szentelt keretrendszernek. Mindezeket az Apache licenc alatt kínáljuk.
Eredetileg ezek a keretek két különböző filozófiára reagálnak. A Flink és a Storm valós idejű feldolgozást végeznek - valós időben, natív módon -, miközben a Spark mikrotételenként dolgozik, hogy minden X milliszekundumban feldolgozza és eredményezze a valós idejű megközelítést.
| 2011 | 2009 | 2010 |
| UC Berkeley | Berlini Egyetem | |
| Események feldolgozása | Mikrotételek | Valós idejű feldolgozás |
| Clojure, Java | Java, Python, R, Scala | Java, Python, Scala |
| - | Cloudera, Hortonworks és MapR | - |
| - | Talend, Dataiku | Talend |
| - | Adattárak | Data Artisans (az Alibaba tulajdonosa) |
| Apache Storm az Azure HDInsight-on | Apache Spark az Amazon EMR-en, Spark az Azure HDInsight-on, Cloud Dataproc a Google Cloud szolgáltatásból (Spark + Hadoop) | Apache Flink az Amazon EMR-en |
| Yahoo!, Twitter, Spotify, Groupon. | Uber, ING, Criteo, Zalando. | Alibaba, AWS, CapitalOne, OVH, Bouygues Telecom. |
Christophe Parageaud, az Ippon Technologies vezető adat- és Java architektúra-szakértője szerint "más kiválasztási kritériumokat is figyelembe kell venni, például a keret érettségét, népszerűségét a fejlesztői közösségekben vagy akár a megoldás támogatását egy kereskedelmi szerkesztő által. Annyi garancia a fenntarthatóságra és a skálázhatóságra. "
Spark, a legnépszerűbb
Népszerűségét tekintve a Spark előrelépett versenytársa előtt. Hogy erről meggyőződhessen, csak meg kell látnia a Google Trends keretrendszeréhez társított lekérdezések számát. A Berkeley-i Kaliforniai Egyetem rangos AMPLab-jában tervezett keretrendszernek valójában minden papíron tetszetős. Ami a fő hátrányát jelentette (az adatok feldolgozása mikro-kötegelt módban és nem patakban), két évvel ezelőtt leküzdötte a 2.0-ás verzió kiadását. Ebből az alkalomból az új Spark Streaming funkció bevezette, amint a neve is mutatja, az adatfolyamok kezelését. Ez a verzió óta a Spark kapcsolódik a TensorFlow-hoz is, hogy integrálja a mély tanulási dimenziót. "Páratlan plusz" Razvan Bizoï, az adatbázis-architektúra független tanácsadója és az Orsys intézet oktatója szerint.