1. fejezet kódolása és fájlformátumai

A szövegkódolás a legfontosabb, de a legérzékenyebb és legrobbanékonyabb téma az internetes nemzetközivé válás területén. Ez elengedhetetlen téma, mert az interneten keringő információk nagy része szöveges formában jelenik meg. Az Internet története azonban biztosítja, hogy az uralkodó kódolás, és egyes esetekben az egyetlen lehetséges kódolás a nagyon korlátozott ASCII. De ez a kódolás csak néhány nyelvet képviselhet, amelyek közül csak három fontos: angol, indonéz és szuahéli.

Kódolási rendszerek

Kódolás: alapelvek

A számítógépek csak numerikus adatokat kezelnek, ebben az esetben bináris formában (bináris számjegyek: bináris számjegy = BIT).
A bit a legkisebb információegység, amelyet a számítógép képes kezelni.
Egy bit lehet 1 vagy 0.
2 bit esetén négy különböző állapotunk lehet (2 * 2): 00, 01, 10, 11
3 bit esetén nyolc különböző állapotunk lehet (2 * 2 * 2): 000, 001, 010, 011, 100, 101, 110, 111
7 bit segítségével 128 különböző állapotunk lehet (27)
8 bit segítségével 256 különböző állapot állhat rendelkezésre (28)
16 bit segítségével 65 000 különböző állapot állhat rendelkezésre (216)
32 bittel + 4 milliárd különféle állapot állhat rendelkezésünkre (232)

Egy kód (egy karakterkészlet) egy megfelelési táblázat, amely egy grafikus szimbólumot numerikus adatokkal társít.
A karakterkészlet általában megfelel bizonyos feltételeknek:
- Vezetéknév: A karakterkészletre különféle nevek utalnak: karakterkódolás, karakterkódolású repertoár és kódlap. Mindig úgy nevezik meg, hogy a feldolgozó vagy a fogadó rendszer a megfelelő táblázatot tudja használni. Példák karakterkészletekre: ISO/IEC 8859-1, ISO/IEC 8859-2, ASCII, Unicode 4.0 stb.;
- Vágott: a karakterkészlet méretét a karakter ábrázolásához használt bitek száma fejezi ki, és meghatározza a kódolandó karakterek számát:
* 7 bitet használunk 128 karakter kódolásához: ASCII, ISO/IEC 9036 (arab)
* 8 bit képes 256 karakter kódolására: ISO/IEC 8859-1, UTF-8
* 16 bit lehetővé teszi +65000 karakter kódolását: UTF-16, KSC 5601 (koreai)
* 32 bit +4 milliárd karaktert képes kódolni: UCS-4, UTF-32.

- Karakterek: van legalább (a latin ábécé esetében): a 10 számjegy, az ábécé 26 betűje, írásjelek vagy operátorok, az információ továbbításának megkönnyítésére és a funkciók elrendezésére szolgáló vezérlő karakterek.

Minden karakterkészlet megkülönbözteti a karakter és a karakter fogalmát:

* A karakter a szöveg kódolásához használt információegység. Olyan szám képviseli, amely csak a memóriában vagy a lemezen található.

* A karakterjel egy olyan geometriai alakzat, amelyet egy karakter bemutatására használnak. A képernyőn vagy nyomtatott formában jelenik meg. A karakterjelek könyvtár egy betűtípust alkot (Arial, Times New Roman stb.)

- Kezelés: a számok és betűk kódolását úgy kell megtervezni, hogy megkönnyítse a feldolgozást.

Például képesnek kell lennünk a karakterek egyszerű rendezésére. Mivel lexikográfiai értelemben „A =? -, & ’ +
-12 rovat nemzeti vagy speciális felhasználásra van fenntartva (diakritikus betűk és egyéb szimbólumok).

Kódolás: inkompatibilitási problémák

Több száz karakterkódoló rendszert hoztak létre.

Gyakran nem kompatibilisek egymással: két rendszer ugyanazt a numerikus kódot használhatja két különböző karakterhez, vagy használhat különböző kódokat ugyanazon karakterhez.

A játékok sokasága miatt minden gyártó saját megoldását kínálja, amely többé-kevésbé ezen szabványok egyikén alapul. Ekkor felmerül a rendszerek közötti adatátvitel vagy az egyik rendszerből a másikba történő migráció problémája.

A probléma tehát nem a hiány, hanem a bőség.

Arabul: több karakterkészlet: ISO 8859-6, ISO 9036, MS Arab Dos Code 708. oldal, MS Windows Arabic Code 1256. oldal, Arab Mac Code oldal, Arab Windows 3X Code Oldal, Code 864. Dos Arabic stb.

Példák az összeférhetetlenségre:
Az arab szó „. "Az ISO 8859-6 szabvány szerint a következő numerikus kódsorozatként van kódolva: 226 () 232 (?) és 234 (?).

Ha az ISO 8859-6 szabványról a Windows 1256 kódoldalra lépünk, akkor ugyanaz a numerikus kódsorozat adja meg a kijelzést: êèâ.

Miért ez az átalakulás ?: a két karakterkészlet különböző kódokat rendel a példánkban szereplő három arab betűhöz.

- Ugyanez a probléma figyelhető meg az ékezetes latin betűkkel: û, ê, î, ï, è stb.

Kódolás: univerzális megoldás (Unicode és ISO 10646)

A szabvány Unicode és a szabvány ISO/IEC 10646 adjon meg egyedi számot minden karakterhez, platformtól, szoftvertől és nyelvtől függetlenül.
1992 óta, az egyesülés időpontja óta, az Unicode fejlesztése szinkronban van az ISO/IEC 10646 szabvány fejlesztésével.
Az Unicode és az ISO/IEC 10646 szabvány megjelenése, valamint az ezeket támogató eszközök rendelkezésre állása a legutóbbi szoftverfejlesztés legszembetűnőbb tényei közé tartozik.
Az Unicode és az ISO/IEC 10646 szabványnak köszönhetően egyetlen szoftver vagy weboldal egyszerre és módosítás nélkül képes kielégíteni több platform, nyelv és ország igényeit.
Ezenkívül lehetővé teszik a különböző forrásokból származó szoftverek számára a karakterek cseréjét adatvesztés nélkül.

Unicode/ISO 10646: az internet nemzetközivé válása

Jelenleg az Unicode-ot és az ISO/IEC 10646-ot a W3C és az IETF számos legújabb szabványa előírja, például XML, XSL, XHTML stb.

RFC 2277 a következő irányelveket állapítja meg:

bármely protokollnak azonosítania kell a használt karakterkészletet;
bármely protokollnak képesnek kell lennie az ISO/IEC 10646 univerzális karakterkészlet UTF-8 kódolására;

a meglévő protokolloknak, amelyek más karakterkészleteket használnak, vagy amelyek alapértelmezett karakterkészletet használnak, mint az UTF-8, támogatniuk kell az UTF-8 kódolást [...]

A fő böngészők legújabb verziói támogatják az UTF-8 kódolást: Internet Explorer 4, 5 és 6, Netscape 4 és 6, Tango stb.

HTML nyelven elegendő egy ezt tartalmazó metaadat hozzáadása a dokumentum szakaszához:

XML esetén az UTF-8 kódolás megemlítését fel kell tüntetni az XML dokumentum prológjában:

A HTML vagy XML dokumentum törzsébe beillesztheti a karaktereket a kódtáblázatban található számokra hivatkozva.
A karakterekre való hivatkozások hexadecimális értékként vagy a táblázatban szereplő karakter decimális értékeként is megadhatók.
Az első esetben a hivatkozást &#x jelöli, majd a táblázatban szereplő karakter hexadecimális értéke, majd pontosvessző.
A második esetben a hivatkozást a &#előtag követi, amelyet a táblázatban szereplő karakter számértéke követ, majd pontosvessző.

A különböző fájlformátumok

Szöveget tartalmazó fájlok

.RTF (Rich Text Format) Ez a szabványosított ASCII szöveges dokumentum formátum formázással elősegíti a különböző szoftverek közötti cserét. Akkor használják, ha kétség merül fel a verzió, a szoftver vagy a környezet kompatibilitásával kapcsolatban egy egyszerű szöveges fájlcsere során. Felhívjuk figyelmét, hogy az elrendezés és a táblázatok nem lesznek hitelesen átírva. Foglalás egyszerű dokumentumok számára (különben használja az Acrobat programot és annak PDF formátumát).