SELFHTML/Navigationshilfen Internationalisierung |
Zeichensätze (ISO-8859-Familie und andere) |
|
Die ISO-8859-Zeichensätze |
|
Die ISO-8859-Familie wurde vom European Computer Manufacturer's Association (ECMA) entwickelt. Es handelt sich um ein Set von standardisierten Zeichensätzen für alphabetische Schriften. Dazu gehören die lateinischen Schriften, auf denen die meisten Sprachen Westeuropas und Amerikas beruhen, oder etwa die kyrillischen Schriften.
Alle Zeichensätze dieser Familie basieren auf der 1-Byte-Abbildung eines Zeichens. Das heißt, alle Zeichensätze enthalten 256 mögliche Zeichen. Bei allen Zeichensätzen sind die ersten 128 Zeichen, also die Zeichen mit den Werten 0 bis 127, identisch mit dem ASCII-Zeichensatz. Das hat den Vorteil, dass die üblichen lateinischen Groß- und Kleinbuchstaben, die arabischen Ziffern und die üblichen Sonderzeichen wie Satzzeichen oder kaufmännische Zeichen in all diesen Zeichensätzen immer zur Verfügung stehen.
Oberhalb ist der ASCII-Zeichensatz abgebildet. Die darstellbaren Zeichen dieses Zeichensatzes haben die Werte zwischen 32 und 127. Wert 32 ist das Leerzeichen. Alle ISO-8859-Zeichensätze enthalten diesen Zeichensatz.
Den Wert eines Zeichens ermitteln Sie, indem Sie die Werte aus Spalten- und Zeilenüberschrift des Zeichens addieren. Ein großes K hat in dieser Tabelle beispielsweise den Zeilenwert 70 und den Spaltenwert 5. Daraus ergibt sich der Wert 75 für dieses Zeichen. Zeichenwerte können bei der Verwendung von Zeichensätzen und Unicodes in HTML eine Rolle spielen. Falls Sie nicht den Dezimalwert eines Zeichens benötigen, sondern den Hexadezimalwert, können Sie den Dezimal-Hexadezimal-Umrechner benutzen.
So wie im ASCII-Zeichensatz die ersten 32 Zeichen (Zeichenwerte 0 bis 31) für Steuerzeichen reserviert sind, sparen auch die erweiterten Zeichensätze der ISO-8859-Familie einen Bereich von Zeichen aus. Es handelt sich um die ersten 32 Zeichen oberhalb des ASCII-Bereichs, also um die Zeichenwerte 128 bis 159. Die Tabellen zu den einzelnen Zeichensätzen weiter unten bilden daher die verbleibenden Zeichenwerte 160 bis 255 ab. Das Zeichen mit dem Wert 160 ist in all diesen Zeichensätzen ein erzwungenes Leerzeichen.
Viele der Zeichensätze der ISO-8859-Familie überlappen sich. Das ist Absicht. Die Zeichensätze sind so optimiert, dass sich mit je einem Zeichensatz möglichst viele Schriften möglichst vollständig abdecken lassen. Zeichen, die in mehreren Zeichensätzen der ISO-8859-Familie vorkommen, haben in der Regel immer den gleichen Wert, d.h. sie befinden sich in den unterschiedlichen Zeichensätzen an der gleichen Stelle.
Sechs der ISO-8859-Zeichensätze beziehen sich auf Schriften, die im Kern auf der lateinischen Schrift basieren. Diese Zeichensätze haben daher noch die Beinamen Latin-1 bis Latin-6.
Die folgenden Tabellen zeigen die einzelnen Zeichensätze der ISO-8859-Familie. Wie Sie diese Zeichensätze in HTML einsetzen können, wird im Abschnitt Zeichensatzangabe als Meta-Angabe beschrieben. Die blau dargestellten Namen sind jene Bezeichnungen, die Sie in HTML angeben können.
Dieser Zeichensatz enthält die schriftspezifischen Zeichen für westeuropäische und amerikanische Sprachen. Der Zeichensatz deckt die Sprachen Albanisch, Dänisch, Deutsch, Englisch, Farörisch, Finnisch, Französisch, Galizisch, Irisch, Isländisch, Italienisch, Katalanisch, Niederländisch, Norwegisch, Portugiesisch, Schwedisch und Spanisch ab. Lediglich einzelne Zeichen wie das niederländische "ij" oder die deutschen Anführungszeichen unten fehlen.
Dieser Zeichensatz enthält die schriftspezifischen Zeichen für die meisten mitteleuropäischen und slawischen Sprachen. Der Zeichensatz deckt die Sprachen Kroatisch, Polnisch, Rumänisch, Slowakisch, Slowenisch, Tschechisch und Ungarisch ab.
Dieser Zeichensatz deckt die Sprachen Esperanto, Galizisch, Maltesisch und Türkisch ab.
Dieser Zeichensatz enthält einige Zeichen der Sprachen Estnisch, Lettisch und Litauisch. Vergleichen Sie diesen Zeichensatz auch mit ISO 8859-10, der sehr ähnlich ist.
Dieser Zeichensatz enthält kyrillische Zeichen. Er deckt weitgehend die Sprachen Bulgarisch, Mazedonisch, Russisch, Serbisch und Ukrainisch ab.
Dieser Zeichensatz enthält Zeichen arabischer Schrift. Die Darstellung der Zeichen in der folgenden Tabelle ist jedoch "abstrakt", da die Zeichen in der Schriftpraxis variieren, je nachdem, ob sie am Anfang, in der Mitte oder am Ende eines Wortes oder einzeln stehen. Arabisch zeichnet sich weiterhin dadurch aus, dass die Schriftrichtung von rechts nach links ist.
Dieser Zeichensatz enthält die Zeichen der neugriechischen Schrift.
Dieser Zeichensatz enthält die Zeichen der hebräischen Schrift. Wie bei der arabischen Schrift ist dabei die Schriftrichtung von rechts nach links.
Dieser Zeichensatz ist speziell für Türkisch gedacht. Er basiert auf ISO 8859-1, enthält jedoch anstelle der isländischen Sonderzeichen türkische Zeichen.
Dieser Zeichensatz enthält speziell Zeichen für die Sprachen Grönländisch (Inuit) und Lappisch (Sami).
Es gibt etliche andere, zum Teil schon ältere Zeichensätze, die Konventionen für einzelne Schriften oder Schriftfamilien definieren, häufig landesspezifisch. Auf der folgenden Internet-Adresse werden die Namen dieser Zeichensätze gesammelt:
http://www.iana.org/assignments/character-sets
Diejenigen Zeichensatznamen, die dort in der Liste jeweils hinter Name:
oder Alias:
aufgelistet sind, können Sie in HTML angeben, wenn Sie einen bestimmten Zeichensatz erzwingen wollen (bevorzugt sollten jene Namen verwendet werden, die in der Liste mit dem Zusatz preferred MIME name
ausgezeichnet sind). Möglich ist das z.B. dokumentweit mit der Meta-Angabe für den Default-Zeichensatz.
Das Unicode-System | |
Computer und geschriebene Sprache | |
SELFHTML/Navigationshilfen Internationalisierung |
© 2001 selfhtml@teamone.de