Adatcsökkentés deduplikációval és tömörítéssel - IONOS

Az IDC nemzetközi kutatóintézet szerint a globális adatok mennyisége körülbelül kétévente megduplázódik. 2020-tól ez digitális univerzum össztérfogata 44 zettabájt legyen. Ez 44 billió gigabájt adat előállítása vagy másolása egyetlen év alatt. Ez a fejlesztés visszahat különösen a tárolási technikákra, a visszakapcsolási eljárásokra és az adat-helyreállítási rendszerekre. Ezeknek képesnek kell lenniük az adatok hatalmas súlyának hordozására és felhasználására. Módszereket terjesztenek elő a műszaki megvalósítás koncepcióira. Lehetővé teszik a fizikai információk, valamint az adatmegőrzési költségek csökkentését. Ezek a módszerek elsősorban két megközelítésre támaszkodnak: az adatok tömörítésére és a deduplikációra. Míg a veszteségmentes adattömörítés redundanciát használ egy fájlban, a deduplikációs algoritmusok általában a fájladatokat igazítják a duplikáció elkerülése érdekében. Az adatmentés tehát a deduplikációs technológia alapvető területe.

Deduplikáció

A deduplikációs technika egy adatcsökkentési folyamatra utal kerülje az adatok redundanciáját egy rendszer tárhelyén. Deduplikációs gépet használnak a redundáns fájlok vagy adatblokkok kiküszöbölésére a speciális algoritmusoknak köszönhetően.

A deduplikáció, mint tárolási technika célja, hogy a veszteségmentes fájl rekonstrukciója érdekében annyi információt írjon egy nem felejtő adathordozóra, amelyre szükség van. Minél több másolat kerül eltávolításra, annál kisebb az adatmennyiség, amelyet tárolni és továbbítani kell. Például a Git vagy a Dropbox fájlok szintjén duplikált azonosítás végezhető, de az alfájl szintjén működő algoritmusok még mindig hatékonyabbak. A fájlokat így szétbontják adatblokkokká, amelyek ellenőrző összegekkel vagy hasheket. A nyomon követési adatbázis központi ellenőrző szervként működik, és tartalmazza ezeket az ellenőrző összegeket.

A deduplikáció blokképítési módszerének két változata van:

Deduplikáció hosszú szilárd blokkokkal: az algoritmus a fájlokat pontosan azonos hosszúságú töredékekre osztja fel. Ez általában a fájlcsoport (fürt) vagy a RAID rendszer (általában 4 KB) méretéhez igazodik, de manuálisan is konfigurálható. A blokkok hossza ebben az esetben egyénileg van beállítva, és az összes blokkhoz standardként kerül meghatározásra.

Dedukció változó hosszúságú blokkokkal: itt nincs meghatározva szabványos hosszúság. Ehelyett az algoritmus különböző blokkokra osztja az adatokat, amelyek hossza a típustól függően változik.

A feladás típusának egyre nagyobb hatása van a deduplikáció hatékonyságára. Ez különösen akkor fontos, ha az átvitt adatokat később megváltoztatják. Ha kibővítjük a szilárd adatblokk további információkkal az összes következő blokk tartalma általában arányosan mozog az előre definiált blokkhatárok felé. Bár a változás csak egy adatblokkot érint, a deduplikációs algoritmus a blokkhatárok eltolódása miatt a fájl minden további szegmensét is újból osztályozza. Az is lehetséges, hogy a módosított bájtok pontosan megegyeznek a fix blokkhosszúsággal. Mivel az újként megjelölt blokkokat újból elmentjük, a rögzített hosszúságú adatblokkok deduplikálása során végzett másolat növeli a számítási memóriát és a sávszélesség terhelését.

Ha egy algoritmus használ helyette változó blokkhatárok, egyetlen blokk módosítása nem érinti a szomszédos szegmenseket. Ehelyett csak a módosított adatblokk módosul és mentésre kerül. Ez tehermentesíti a hálózatot, mert a mentés során kevesebb adatot továbbítanak. Az adatmódosítások ilyen rugalmassága azonban költséges a processzor erőforrásai szempontjából, mert az algoritmusnak először meg kell derítenie, hogy az adatok különböző részei hogyan oszlanak meg.

A redundáns részek azonosítása azon a feltételezésen alapul, hogy az adatblokkok azonos hash információt tartalmaznak. A redundáns részek kiszűrése érdekében a deduplikációs algoritmusnak csak újra kell továbbítania a kivonatokat, és össze kell hasonlítania a nyomkövetési adatbázissal. Ha azonos ellenőrző összegek vannak, akkor a felesleges részeket egy mutató helyettesíti, amely ugyanarra a tárhelyre mutat, mint az adatblokk. Egy ilyen mutató önmagában lényegesen kevesebb helyet igényel egy adatblokkhoz képest. Minél több adatot cserélnek le ilyen mutatók, annál kevesebb tárhelyet igényel. Megjósolni azonban nem tudjuk az adatok csökkentésének hatékonysága deduplikációs algoritmusok révén, mert erősen függenek a kimenő fájltól és annak adatszerkezetétől. Ezenkívül a deduplikáció csak kódolatlan adatokra alkalmas. A titkosítási rendszerekben kifejezetten elkerülik az elbocsátásokat, ami lehetetlenné teszi a mintafelismerést.

A deduplikáció vagy a céltároló helyén, vagy a forrásnál történik.

Forrás deduplikáció

Ha a redundáns adatokat már eltávolítják a céltárolóba történő továbbítás előtt, akkor ezt forrás deduplikációnak nevezzük. Ebben az esetben a deduplikációs gépet például a biztonsági mentési program. A felesleges információkat közvetlenül eltávolítják az adatforrás adatrendszeréből. Ehhez a biztonsági mentési program rendszeres időközönként átvizsgálja az újonnan létrehozott adattömböket, és összehasonlítja azokat a már meglévő szerver biztonsági mentésekkel. Ha felesleges fájlblokkot talál, kizárja a következő biztonsági másolatból. Ha egy fájlt módosítanak, a biztonsági mentési program csak a módosításokat továbbítja.