Big Data Eljött az idő ”- GULP

Interjú Sergey Rysev-lel, a GULP szoftverfejlesztési és rendszergazdai vezetőjével

A GULP nemcsak szakértőket és vállalatokat hoz össze, hanem maga is alkalmaz szoftverfejlesztőket. Feladatai közé tartozik a mintegy 90 000 szabadúszó profil mögötti technológia fenntartása és fejlesztése, évente több mint 200 000 projektkérés és minden nap ezer állás és projektajánlat. Sergey Rysev, a GULP szoftverfejlesztési és rendszergazdai vezetője és csapata támogatja a GULP belső kollégáit abban, hogy megtalálják a megfelelő szakértőket ebben a hatalmas adatállományban, és összehozzák őket a vállalatokkal. A Big Data sorozatunkhoz kértük tőle a fejlődés jelenlegi állapotának értékelését és azt a kérdést, hogy mit hozhat a Big Data szakember.

GULP: Hogyan értékeli a big data jelenlegi fejlődését?

Sergey Rysev: Életünk legváltozatosabb területein robban az adatmennyiség: Számtalan érzékelő adat az autóinkban, vásárlói tranzakciók, vásárlási információk kedvezményes kártyákkal, mozgó adatok okostelefonjainkról és még sok más. A társadalom egyre több adatot állít elő, így ezeket már nem lehet klasszikus módszerekkel értékelni, még a legjobb Oracle adatbázissal sem.

A nagy adatok kezelésének alapkoncepciói már régóta ismertek, de eddig egyszerűen hiányoztak az elmélet gyakorlati megvalósításához szükséges technikai feltételek. Az elmúlt években a tárolási és számítási technológiák óriási ugrást tettek és olcsóbbá váltak, így ez hamarosan megváltozik.

A nagy informatikai vállalatok, például a Google, az IBM és az Amazon Web Services fontos úttörő munkát végeztek itt. Egyre inkább saját fejlesztéseik "melléktermékeit" hozzák szabadon elérhetővé a piacon, amelyek a Big Data-t egyre alkalmasabbá teszik a tömegek számára. Ilyen például az Amazon Machine Learning, az IBM Watson vagy az Amazon, amely az Alexa alapvető funkcióit biztosítja saját alkalmazásaihoz.

Gyakran idézett mondat: „Az adatok az új olaj.” És pontosan ez az: Az adatok sok alkalmazás alapanyaga. Maga a kőolaj azonban még mindig viszonylag kevéssé használható, ezért azt fel kell dolgozni, mielőtt például üzemanyagként vagy műanyagként felhasználható lenne. Ennek ellenére: Aki birtokolja az adatokat vagy az olajat, annak meghatározó előnye van. Gyorsabb és jobb döntéseket hoznak, mint azok, akik nem. Például jobban tudja, mi foglalkoztatja az ügyfeleket, és hol találhatók potenciális ügyfelek.

GULP: Mi a különbség a nagy adatprojekt és a normál informatikai projekt között?

Sergey Rysev: Különösen akkor, ha a nagy adatprojekteket a semmiből hozzák létre, azok inkább kutató jellegűek, mivel egyelőre nincs annyi bevált módszer és megközelítés. Még a hagyományos projekteknél is kevésbé tudja, mire számíthat és mi lesz a végeredmény.

Nem elhanyagolható szempont a téma: Kitől származnak az adatok, ki felelős az adatokért, és hogyan lehet azokat ellenőrizni és továbbadni a megfelelő hozzáférési jogokkal rendelkező projektcsoport tagjainak? A legfontosabb itt nem csak a műszakilag megfelelő interfészek létrehozása, hanem az is, hogy mindenkit felzárkózzon.

GULP: Mit hozhatnak magukkal a big data szakértők?

Sergey Rysev: Sok tapasztalat és intuíció. Képesnek kell lenniük annak felmérésére, hogy értékes vagy releváns információkat tudnak-e levonni a rendelkezésre álló adatokból. Vagy ha ez nem így van, akkor „geológusként”, amikor olajat keresünk - szakzsargonban: „adatközvetítő”. Tudják, hol vannak az érdekes adatok, mind belsőleg, mind külsőleg, például a Szövetségi Statisztikai Hivatalnál, az Eurostatnál stb. És tudják, mely adatok relevánsak. A nagy adatszakértőknek is szükségük van egy bizonyos kutatási szellemre, az összes kapcsolódó jellemzővel: kíváncsiság, tanulási hajlandóság, kitartás és kitartás.

És pusztán technikai szempontból: A nagy adattechnológia nem létezik, mert a big data projektek megvalósításához sokféle megközelítés létezik. Különösen fontosak az olyan nyelvek, mint a Python és az R, valamint a Hadoop körüli noSQL adatbázis-rendszerek, például a Cassandra, a HBase vagy a MongoDB. A nagy adatok iránt érdeklődőknek keresniük kell a Hadoop-fürtök SQL-lekérdezéseinek eszközeit is, például a Hive, az Impala vagy a Phoenix. (A szerkesztő megjegyzése: A big data készségeivel külön cikkben foglalkozunk.)