SELFHTML/Navigationshilfen XML/DTDs Regeln für XML-Dateien |
Zeichen, Zeichensätze und nicht interpretierte Abschnitte | |
XML-eigene Zeichen |
|
In XML gilt wie in HTML: Zeichen, die bei der XML-Syntax besondere Bedeutung haben, müssen Sie umschreiben, wenn Sie sie im normalen Text zwischen den Tags verwenden wollen. Folgende Zeichen sind betroffen:
|
<Element>dieses Element wird notiert als <Element>...</Element></Element> |
Das Beispiel erzeugt folgende Ausgabe:
dieses Element wird notiert als <Element>...</Element>
XML interpretiert den Inhalt einer Datei, wenn Sie in der XML-Deklaration nichts anderes angeben, gemäß dem Zeichensatz ISO/IEC 10646. Dieser Zeichensatz wurde 1993 von der International Organization for Standardization (ISO) entwickelt. Es soll ein Universalzeichensatz für alle Zeichen aller natürlichen und symbolischen Sprachen der Welt sein. Seit der Unicode-Version 1.1 entspricht ISO/IEC 10646 dem Unicode-System. Um genau zu sein: erlaubt sind Unicode-Zeichen mit den Hexadezimalwerten #x20
bis #xD7FF
, #xE000
bis #xFFFD
und #x10000
bis #x10FFFF
. Nicht erlaubt sind lediglich die beiden Zeichen mit den Hexadezimalwerten #xFFFE
und #xFFFF
, da diese beiden keine Unicode-Zeichen darstellen.
Ferner sind folgende Steuerzeichen erlaubt: Tabulatorzeichen (hexadezimal #x9
), Wagenrücklaufzeichen (#xA
) und Zeilenvorschubzeichen (#xD
). Diese drei Zeichen plus das normale Leerzeichen (x20
) bilden die so genannten Leerraumzeichen.
Für die Praxis beim Editieren von XML bedeutet das folgendes: Wenn Sie zum Editieren der XML-Dateien eine Software benutzen, die den für westeuropäische Sprachen üblichen 8859-Latin-1 Zeichensatz unterstützt, dann können Sie alle Zeichen ohne Umschreibung über Tastatur eingeben, auch deutsche Umlaute und Sonderzeichen. Falls die Software nicht diesen Zeichensatz, aber zumindest den ASCII-Zeichensatz unterstützt, können Sie immerhin alle lateinischen Grundbuchstaben, arabische Ziffern und wichtige Satzzeichen direkt über Tastatur eingeben.
Unter MS Windows und auch unter Unix-Derivaten und Macintosh unterstützen heute die meisten Programme den 8859-Latin-1 Zeichensatz. Probleme kann es beim Editieren z.B. unter älteren Systemen wie MS-DOS oder bei einigen Macintosh-Programmen geben.
Für alle Sonderzeichen, die Sie mit Ihrer Software nicht direkt eingeben können, können Sie Unicodes als numerische Angabe notieren. Die Notationsweise ist dabei in XML die gleiche wie in HTML 4.0, also z.B. für den Buchstaben ü
die Notation ü
(dezimal) oder ü
(hexadezimal). Siehe auch Allgemeines zur Zeichenreferenz (HTML)
XML-Dokumente dürfen so genannte CDATA-Abschnitte enthalten, die vom Parser nicht als XML-Quellcode interpretiert werden. Im Unterschied zu Kommentaren werden solche Bereiche jedoch mit ausgegeben, einfach als eine nicht weiter interpretierte Zeichenfolge.
<![CDATA[<Element>dieses Element wird nur als Zeichenfolge ausgegeben</Element>]]> |
Die Definition von CDATA-Abschnitten beginnt mit einer öffnenden spitzen Klammer <
. Dahinter folgt unmittelbar anschließend ein Ausrufezeichen !
und eine öffnende eckige Klammer [
. Dahinter notieren Sie, in Großbuchstaben, das Schlüsselwort CDATA
, und dahinter nochmals eine öffnende eckige Klammer ([
). Zwischen dieser einleitenden Zeichenfolge und der beendenden, markiert durch zwei schließende eckige Klammern und ein eine schließende spitze Klammer (]]>
), können Sie beliebigen Text notieren. Im Beispiel ist ein XML-Element durch die Tags <Element>...</Element>
innerhalb des CDATA-Bereichs notiert. Dieses wird vom Parser jedoch nicht als Element namens Element
betrachtet, sondern einfach als Text, genauso wie er da steht.
Regeln beim Editieren von XML und Dateinamenkonventionen | |
XML-Namensräume | |
SELFHTML/Navigationshilfen XML/DTDs Regeln für XML-Dateien |
© 2001 selfhtml@teamone.de