Zum Inhaltsverzeichnis

Inhaltsverzeichnis

19 Akustische Stylesheets
19.1 Einführung in akustische Stylesheets (Aural Stylesheets)
19.2 Eigenschaften für die Lautstärke : 'volume'
19.3 Spracheigenschaften: 'speak'
19.4 Pausen-Eigenschaften: 'pause-before', 'pause-after' und 'pause'
19.5 Cue-Eigenschaften: 'cue-before', 'cue-after' und 'cue'
19.6 Misch-Eigenschaften: 'play-during'
19.7 Räumliche Eigenschaften: 'azimuth' und 'elevation'
19.8 Eigenschaften zur Sprachcharakteristik: 'speech-rate', 'voice-family', 'pitch', 'pitch-range', 'stress' und 'richness'
19.9 Spracheigenschaften: 'speak-punctuation' und 'speak-numeral'

19 Akustische Stylesheets

19.1 Einführung in akustische Stylesheets (Aural Stylesheets)

Die akustische Darstellung eines Dokuments, die von blinden Benutzern sowie Benutzern, die keine visuelle Ausgabe nutzen können, bereits häufig eingesetzt wird, kombiniert Sprachsynthese und „akustische Icons“. Häufig erfolgt diese akustische Darstellung durch die Konvertierung des Dokuments in einfachen Text, der dann einer so genannten Bildschirmleser-Software oder -Hardware übergeben wird, die einfach alle Zeichen auf dem Bildschirm liest. Das Ergebnis ist eine weniger effektive Darstellung, als würde die Dokumentstruktur beibehalten. Stylesheet-Eigenschaften für eine akustische Darstellung können mit den visuellen Eigenschaften (gemischte Medien) kombiniert oder als akustische Alternative zur visuellen Darstellung verwendet werden.

Neben den offensichtlichen Vorteilen, die sie in Hinblick auf den Zugriff bringen, gibt es noch andere große Märkte für rein akustisch angebotene Informationen, wie beispielsweise für Autofahrer, industrielle und medizinische Dokumentationssysteme, Home-Entertainment, oder um Benutzer zu unterstützen, die gerade lesen lernen oder Probleme mit dem Lesen haben.

Bei der Verwendung akustischer Eigenschaften besteht die Zeichenfläche aus einem dreidimensionalen physischen Raum (Klangumgebung) und einem temporären Raum (man kann Klang vor während und nach anderen Klängen spezifizieren). Darüber hinaus erlauben die CSS-Eigenschaften den Autoren, die Qualität synthetisierter Sprache zu variieren (Sprachtyp, Frequenz, Modulation usw.).

Beispiel

H1, H2, H3, H4, H5, H6 {
voice-family: paul;
stress: 20;
richness: 90;
cue-before: url("ping.au")
}
P.heidi { azimuth: center-left }
P.peter { azimuth: right }
P.ziege { volume: x-soft }

Damit wird der Sprachsynthesizer angewiesen, die Überschriften in der Sprache (eine Art „Audio-Schrift“) namens „paul“ zu sprechen, in einem flachen Ton, aber mit einer sehr umfangreichen Stimme zu sprechen. Bevor die Überschriften gesprochen werden, wird ein Sound-Sample von dem angegebenen URL abgespielt. Absätze mit der Klasse „heidi“ sollen so erscheinen, dass sie von vorne links kommen (falls das Soundsystem räumliches Audio beherrscht), und Absätze mit der Klasse „peter“ von rechts. Absätze mit der Klasse „ziege“ werden sehr weich gesprochen.

19.2 Eigenschaften für die Lautstärke : 'volume'

'volume'

Wert:

<number> | <percentage> | silent | x-soft | soft | medium | loud | x-loud | inherit

Ausgangswert:

medium

Angewendet auf:

Alle Elemente

Vererbt:

Ja

Prozentzahlen

Beziehen sich auf den geerbten Wert

Medium

aural

'volume' bezieht sich auf die Medien-Lautstärke der Wellenform. Mit anderen Worten, eine hochmodulierte Stimme mit einer Lautstärke von 50 könnte sehr viel höhere Spitzenwerte haben. Die Gesamtwerte können sehr wahrscheinlich für den Menschen annehmbar angepasst werden, beispielsweise mit einer physischen Lautstärkenregelung (die sowohl die 0- als auch die 100-Werte proportional vergrößern würde); diese Eigenschaft passt also den dynamischen Bereich an.

Die Werte haben die folgende Bedeutung:

<number>
Eine beliebige Zahl zwischen '0'und '100'. '0' stellt die minimale hörbare Lautstärke dar, '100' die maximale erträgliche Lautstärke.
<percentage>
Prozentwerte werden relativ zum geerbten Wert berechnet und dann auf den Bereich zwischen '0'und '100' zugeschnitten.
silent
Es wird überhaupt nichts ausgegeben. Der Wert '0' hat nicht dieselbe Bedeutung wie 'silent'.
x-soft
Entspricht '0'.
soft
Entspricht '25'.
medium
Entspricht '50'.
loud
Entspricht '75'
x-loud
Entspricht '100'.

Die Benutzerprogramme sollen es dem Zuhörer gestatten, die Werte für '0' und '100' zu setzen. Es gibt keine allgemein verwendbare Einstellung; geeignete Werte sind von der verwendeten Ausrüstung abhängig (Lautsprecher, Kopfhörer), von der Umgebung (im Auto, Heimkino, Bibliothek) und von den persönlichen Vorlieben. Einige Beispiele:

In all diesen Fällen könnte dasselbe Autor-Stylesheet verwendet werden, indem die Einstellungen für '0' und '100' auf der Client-Seite festgelegt werden.

19.3 Spracheigenschaften: 'speak'

'speak'

Wert:

normal | none | spell-out | inherit

Ausgangswert:

normal

Angewendet auf:

Alle Elemente

Vererbt:

Ja

Prozentsätze:

N/A

Medium:

aural

Diese Eigenschaft gibt an, ob und wie Text akustisch dargestellt wird (etwa vergleichbar mit der Eigenschaft 'display'). Die möglichen Werte sind:

none
Unterdrückt die akustische Darstellung, so dass keine Zeit für die Darstellung dieses Elements aufgewendet werden muss. Beachten Sie jedoch, dass Ableitungen diesen Wert überschreiben können und möglicherweise gesprochen werden. (Um sicher zu gehen, dass die Darstellung eines Elements und seiner Ableitungen unterdrückt wird, verwenden Sie die Eigenschaft 'display'.)
normal
Verwendet sprachabhängige Ausspracheregeln für die Darstellung eines Elements und seiner untergeordneten Elemente.
spell-out
Buchstabiert den Text (praktisch für Akronyme und Abkürzungen).

Beachten Sie den Unterschied zwischen einem Element, dessen 'volume'-Eigenschaft den Wert 'silent' hat, und einem Element, dessen 'speak'-Eigenschaft den Wert 'none' hat. Das erstere benötigt dieselbe Zeit, als wäre es ausgesprochen worden, inklusive der Pause vor und nach dem Element, aber es wird keine hörbare Ausgabe erzeugt. Das letztere benötigt keine Zeit und wird nicht dargestellt (während seine Ableitungen sehr wohl dargestellt werden können).

19.4 Pausen-Eigenschaften: 'pause-before', 'pause-after' und 'pause'

'pause-before'

Wert:

<time> | <percentage> | inherit

Ausgangswert:

Vom Benutzerprogramm abhängig

Angewendet auf:

Alle Elemente

Vererbt:

Nein

Prozentsätze:

Siehe Text.

Medium

aural

'pause-after'

Wert:

<time> | <percentage> | inherit

Ausgangswert:

Vom Benutzerprogramm abhängig

Angewendet auf:

Alle Elemente

Vererbt:

Nein

Prozentsätze:

Siehe Text.

Medium:

aural

Diese Eigenschaften geben eine Pause an, die vor (oder nach) dem Sprechen eines Elementinhalts eingehalten werden soll. Die Werte haben die folgenden Bedeutungen:

<time>
Gibt die Pause in absoluten Zeiteinheiten an (Sekunden und Millisekunden).
<percentage>
Bezieht sich auf das Inverse des Werts der 'speech-rate'-Eigenschaft. Beträgt die Sprechgeschwindigkeit beispielsweise 120 Wörter pro Minute (das heißt ein Wort dauert eine halbe Sekunde oder 500 ms), bedeutet eine 'pause-before' von 100% eine Pause von 500 ms, und eine 'pause-before' von 20% bedeutet 100 ms.

Die Pause wird zwischen dem Elementinhalt und dem Inhalt von 'cue-before' oder 'cue-after', falls vorhanden, eingefügt.

Autoren sollten relative Einheiten verwenden, um angesichts großer Abweichungen der Sprechgeschwindigkeiten robustere Stylesheets zu erstellen.

'pause'

Wert:

[[<zeit> | <percentage>]{1,2}] | inherit

Ausgangswert:

Vom Benutzerprogramm abhängig.

Angewendet auf:

Alle Elemente

Vererbt:

Nein

Prozentsatz:

Siehe Beschreibungen zu 'pause-before' und 'pause-after'.

Medium

aural

Die 'pause'-Eigenschaft ist eine Abkürzung für die Einstellung von 'pause-before' und 'pause-after'. Werden zwei Werte angegeben, ist der erste Wert 'pause-before', der zweite Wert ist 'pause-after'. Ist nur ein Wert angegeben, gilt er für beide Eigenschaften.

Beispiel

H1 { pause: 20ms } /* pause-before: 20ms; pause-after: 20ms */
H2 { pause: 30ms 40ms } /* pause-before: 30ms; pause-after: 40ms */
H3 { pause-after: 10ms } /* pause-before: ?; pause-after: 10ms */

19.5 Cue-Eigenschaften: 'cue-before', 'cue-after' und 'cue'

'cue-before'

Wert:

<uri> | none | inherit

Ausgangswert:

none

Angewendet auf:

Alle Elemente

Vererbt:

Nein

Prozentsätze:

N/A

Medium

aural

'cue-after'

Wert:

<uri> | none | inherit

Ausgangswert:

none

Angewendet auf:

Alle Elemente

Vererbt:

Nein

Prozentsätze:

N/A

Medium

aural

Akustische Icons stellen eine weitere Möglichkeit dar, semantische Elemente voneinander zu unterscheiden. Klänge können vor und/oder nach dem Element abgespielt werden, um sie voneinander abzugrenzen. Die Werte haben die folgenden Bedeutungen:

<uri>
Der URI gibt die Ressource für ein akustisches Icon an. Löst sich der URI zu etwas anderem auf als zu einer Audio-Datei, beispielsweise zu einem Bild, sollte die Ressource ignoriert werden, und die Eigenschaft wird behandelt, als hätte sie den Wert 'none'.
none
Es wurde kein akustisches Icon angegeben.

Beispiel

A {cue-before: url("bell.aiff"); cue-after: url("dong.wav") }
H1 {cue-before: url("pop.au"); cue-after: url("pop.au") }

'cue'

Wert:

[<'cue-before'> | | <'cue-after'>] | inherit

Ausgangswert:

Für abkürzende Eigenschaften nicht definiert.

Angewendet auf:

Alle Elemente

Vererbt:

Nein

Prozentsatz:

N/A

Medium

aural

Die 'cue'-Eigenschaft ist eine Abkürzung für die Einstellung von 'cue-before' und 'cue-after'. Werden zwei Werte angegeben, bezieht sich der erste auf 'cue-before', der zweite auf 'cue-after'. Wird nur ein Wert angegeben, gilt er für beide Eigenschaften.

Beispiel

Die beiden folgenden Regeln sind äquivalent:

H1 {cue-before: url("pop.au"); cue-after: url("pop.au") }
H1 {cue: url("pop.au") }

Kann ein Benutzerprogramm ein akustisches Icon nicht darstellen (wenn es beispielsweise die Umgebung des Benutzers nicht erlaubt), empfehlen wir, einen alternativen Hinweis zu erzeugen (z.B. die Anzeige einer Warnung, die Ausgabe eines Warntons usw.).

19.6 Misch-Eigenschaften: 'play-during'

'play-during'

Wert:

<uri> mix? repeat? | auto | none | inherit

Ausgangswert:

auto

Angewendet auf:

Alle Elemente

Vererbt:

Nein

Prozentsätze:

N/A

Medium:

aural

Ähnlich den Eigenschaften 'cue-before' und 'cue-after' gibt diese Eigenschaft einen Sound an, der als Hintergrund abgespielt werden soll, während der Inhalt eines Elements gesprochen wird. Die Werte haben die folgenden Bedeutungen:

<uri>
Der durch diesen <uri> angegebene Sound wird als Hintergrund abgespielt, während der Inhalt des Elements gesprochen wird.
mix
Falls dieses Schlüsselwort angegeben ist, bedeutet es, dass der Sound, der von der 'play-during'-Eigenschaft des übergeordneten Elements geerbt wurde, weiterhin abgespielt der in <uri> angegebene Sound damit gemischt wird. Ist 'mix' nicht angegeben, ersetzt der Hintergrundton des Elements den des übergeordneten Elements.
repeat
Falls dieses Schlüsselwort angegeben ist, bedeutet es, dass der Sound wiederholt wird, falls er zu kurz ist, um die Gesamtdauer des Elements abzudecken. Andernfalls wird der Sound einmal abgespielt und dann beendet. Das ist vergleichbar mit der 'background-repeat'-Eigenschaft. Ist der Sound zu lang für das Element, wird er abgebrochen, nachdem das Element gesprochen wurde.
auto
Der Sound des übergeordneten Elements wird weiterhin abgespielt (er wird nicht neu gestartet, was der Fall wäre, wäre diese Eigenschaft vererbt worden).
none
Dieses Schlüsselwort bedeutet Stille. Der Sound des übergeordneten Elements (falls vorhanden) ist still, während das aktuelle gesprochen wird, und wird nach dem aktuellen Element fortgesetzt.

Beispiel

BLOCKQUOTE.sad { play-during: url("violins.aiff") }
BLOCKQUOTE Q { play-during: url("harp.wav") mix }
SPAN.quiet { play-during: none }

19.7 Räumliche Eigenschaften: 'azimuth' und 'elevation'

Räumliches Audio ist eine wichtige stilistische Eigenschaft für die akustische Darstellung. Es bietet eine natürliche Möglichkeit, mehrere Stimmen voneinander zu unterscheiden, so wie im richtigen Leben (die Menschen stehen nur selten alle am selben Punkt in einem Raum). Stereo-Lautsprecher erzeugen Soundquellen von verschiedenen Seiten. Bi-akustische Kopfhörer oder die immer beliebter werdenden Heimkinos mit 5 Lautsprechern können vollständigen Surround-Sound erzeugen, und Einstellungen mit mehreren Lautsprechern können ein wirklich dreidimensionales Klangbild erzeugen. VRML 2.0 beinhaltet ebenfalls räumliches Audio, was bedeutet, dass es mit der Zeit auch immer mehr Hardware für räumliches Audio im Verbraucherpreisbereich geben wird.

'azimuth'

Wert

<angle> | [[left-side | far-left | left | center-left | center | center-right | right | far-right | right-side] | | behind] | leftwards | rightwards | inherit

Ausgangswert:

center

Angewendet auf:

Alle Elemente

Vererbt:

Ja

Prozentsätze:

N/A

Medium:

aural

Die Werte haben die folgenden Bedeutungen:

<angle>
Die Position wird als Winkel im Bereich zwischen '-360deg' und '360deg' angegeben. Der Wert '0deg' steht für eine Ausrichtung unmittelbar vorne im Mittelpunkt der Klangszene. '90deg' ist rechts, '180deg' hinten, und '270deg' (oder äquivalent dazu und gebräuchlicher '-90deg') ist links.
left-side
Wie '270deg'. Mit 'behind', '270deg'.
far-left
Wie '300deg'. Mit 'behind', '240deg'.
left
Wie '320deg'. Mit 'behind', '220deg'.
center-left
Wie '340deg'. Mit 'behind', '200deg'.
center
Wie '0deg'. Mit 'behind', '180deg'.
center-right
Wie '20deg'. Mit 'behind', '160deg'.
right
Wie '40deg'. Mit 'behind', '140deg'.
far-right
Wie '60deg'. Mit 'behind', '120deg'.
right-side
Wie '90deg'. Mit 'behind', '90deg'.
leftwards
Verschiebt den Sound nach links, relativ zum aktuellen Winkel. Genauer gesagt, werden dabei 20 Grad subtrahiert. Die Arithmetik wird als modulo 360 Grad ausgeführt. Beachten Sie, dass 'leftwards' genauer als „gedreht im Gegen-Uhrzeigersinn“ beschrieben wird, weil dabei immer 20 Grad subtrahiert werden, selbst wenn der geerbte Azimuth bereits hinter dem Zuhörer liegt (in diesem Fall scheint der Sound nach rechts zu gehen).
rightwards
Verschiebt den Sound nach rechts, relativ zum aktuellen Winkel. Genauer gesagt, werden 20 Grad addiert. Die Arithmetik ist unter 'leftwards' beschrieben.

Diese Eigenschaft wird am wahrscheinlichsten implementiert, indem dasselbe Signal in unterschiedliche Kanäle mit unterschiedlichen Lautstärken gemischt wird. Dabei könnten auch eine Phasenverschiebung, eine digitale Verzögerung oder andere, ähnliche Techniken verwendet werden, um die Illusion einer Klangbühne zu erzielen. Welche Mittel genau eingesetzt werden, um diesen Effekt zu erzielen, sowie die Anzahl der verwendeten Lautsprecher, sind vom Benutzerprogramm abhängig; diese Eigenschaft identifiziert nur das gewünschte Endergebnis.

Beispiel

H1   { azimuth: 30deg }
TD.a { azimuth: far-right } /* 60deg */
#12 { azimuth: behind far-right } /* 120deg */
P.comment { azimuth: behind } /* 180deg */

Wird ein räumlicher Azimuth angegeben und das Ausgabegerät kann keine Sounds hinter der Position des Zuhörers erzeugen, sollten die Benutzerprogramme Werte der rückwärtigen Halbkugel in Werte der vorderen Halbkugel umwandeln. Eine Methode sieht wie folgt aus:

'elevation'

Wert:

<angle> | below | level | above | higher | lower | inherit

Ausgangswert:

level

Angewendet auf:

Alle Elemente

Vererbt:

Ja

Prozentwerte:

N/A

Medium:

aural

Die Werte für diese Eigenschaft haben die folgenden Bedeutungen:

<angle>
Gibt die Steigung als Winkel zwischen '-90deg' und '90deg' an. '0deg' bedeutet, auf dem vorderen Horizont, was in etwa derselben Ebene mit dem Zuhörer entspricht. '90deg' bedeutet direkt über und '-90deg' bedeutet direkt unter dem Zuhörer.
below
Wie '-90deg'.
level
Wie '0deg'.
above
Wie '90deg'.
higher
Addiert 10 Grad zur aktuellen Steigung.

Welche Mittel für die Erzielung dieses Effekts eingesetzt werden und die Anzahl der verwendeten Lautsprecher, ist nicht definiert. Diese Eigenschaft definiert nur das gewünschte Endergebnis.

Beispiel

H1   { elevation: above }
TR.a { elevation: 60deg }
TR.b { elevation: 30deg }
TR.c { elevation: level }

19.8 Eigenschaften zur Sprachcharakteristik: 'speech-rate', 'voice-family', 'pitch', 'pitch-range', 'stress' und 'richness'

'speech-rate'

Wert:

<number> | x-slow | slow | medium | fast | x-fast | faster | slower | inherit

Anfangswert:

Medium

Angewendet auf:

Alle Elemente

Vererbt:

Ja

Prozentzahlen:

N/A

Medium:

aural

Diese Eigenschaft gibt die Sprechgeschwindigkeit an. Beachten Sie, dass sowohl absolute als auch relative Schlüsselwortwerte erlaubt sind (siehe auch 'font-size', 15.2.4). Die Werte haben die folgende Bedeutung:

<number>
Gibt die Sprechgeschwindigkeit in Wörtern pro Minute an, eine Maßzahl, die abhängig von der jeweiligen Sprache variiert, aber dennoch von Sprachsynthesizern allgemein unterstützt wird.
x-slow
Entspricht 80 Wörtern pro Minute.
slow
Entspricht 120 Wörtern pro Minute.
medium
Entspricht 180 – 200 Wörtern pro Minute.
fast
Entspricht 300 Wörtern pro Minute.
x-fast
Entspricht 500 Wörtern pro Minute.
faster
Addiert 40 Wörter pro Minute zur aktuellen Sprechgeschwindigkeit.
slower
Subtrahiert 40 Wörter pro Minute von der aktuellen Sprechgeschwindigkeit.

'voice-family'

Wert:

[[<specific-voice> | <generic-voice>],]* [<specific-voice> | <generic-voice> | inherit

Ausgangswert

Vom Benutzerprogramm abhängig

Angewendet auf:

Alle Elemente

Vererbt:

Ja

Prozentsätze

N/A

Medium

aural

Der Wert ist eine durch Kommas getrennte, nach Priorität geordnete Liste mit Sprachfamiliennamen (zu vergleichen mit 'font-family'). Die Werte haben die folgenden Bedeutungen:

<generic-voice>
Die Werte stellen Stimmfamilien dar. Mögliche Werte sind 'male', 'female' und 'child' (männlich, weiblich, Kind).
<specific-voice>
Bei den Werten handelt es sich um spezifische Instanzen (z.B. Schauspieler, Trinoide, Carlos, Lani).

Beispiel

H1 { voice-family: announcer, male }
P.part.romeo { voice-family: romeo, male }
P.part.juliet { voice-family: juliet, female }

Die Namen bestimmter Stimmen können in Anführungszeichen eingeschlossen werden. Sie müssen in Anführungszeichen eingeschlossen werden, wenn Wörter, aus denen sich der Name zusammensetzt, nicht den Syntaxregeln für Bezeichner entsprechen. Außerdem wird empfohlen, dass bestimmte Stimmen in Anführungszeichen eingeschlossen werden, deren Namen sich aus mehreren Wörtern zusammensetzen. Werden die Anführungszeichen weggelassen, werden alle Leerraumzeichen vor und hinter dem Stimmnamen ignoriert und Folgen beliebig vieler Leerraumzeichen innerhalb des Stimmnamens zu einem einzigen Leerzeichen umgewandelt.

'pitch'

Wert:

<frequency> | x-low | low | medium | high | x-high | inherit

Ausgangswert:

medium

Angewendet auf:

Alle Elemente

Vererbt

Ja

Prozentsätze

N/A

Medium:

aural

Gibt die durchschnittliche Stimmung (eine Frequenz) der Sprechstimme an. Die durchschnittliche Stimmung einer Stimme ist von der Stimmfamilie abhängig. Die durchschnittliche Stimmung für eine männliche Standardstimme beispielsweise liegt bei etwa 120 Hz, für eine weibliche Stimme etwa bei 210 Hz.

Die Werte haben die folgenden Bedeutungen:

<frequency>
Gibt die durchschnittliche Stimmung der Sprechstimme in Hertz (Hz) an.
x-low, low, medium, high, x-high
Diese Werte sind keinen absoluten Frequenzen zugeordnet, weil sie von der Stimmfamilie abhängig sind. Benutzerprogramme sollten diese Werte geeigneten Frequenzen zuordnen, abhängig von der Stimmfamilie und der Benutzerumgebung. Die Benutzerprogramme müssen diese Werte jedoch in der richtigen Reihenfolge zuordnen (d.h. 'x-low' ist eine niedrigere Frequenz als 'low' usw.).

'pitch-range'

Wert:

<number> | inherit

Ausgangswert:

50

Angewendet auf:

Alle Elemente

Vererbt:

Ja

Prozentsätze:

N/A

Medium:

aural

Gibt die Abweichung von der durchschnittlichen Stimmung an. Die wahrgenommene Stimmung einer menschlichen Stimme wird durch die Grundfrequenz festgelegt und weist normalerweise einen Wert von 120 Hz für eine männliche Stimme und 210 Hz für eine weibliche Stimme auf; diese Abweichungen vermitteln zusätzliche Bedeutung und Betonung. Eine hoch animierte Stimme, das heißt, eine Stimme, die stark abgewandelt ist, weist einen hohen Stimmungsbereich auf. Diese Eigenschaft bestimmt den Bereich, über den diese Variationen auftreten, das heißt, wie stark die Grundfrequenz von der durchschnittlichen Stimmung abweichen darf.

Die Werte haben die folgenden Bedeutungen:

<number>
Ein Wert zwischen '0' und '100'. Ein Stimmungsbereich von '0' erzeugt eine flache, monotone Stimme. Ein Stimmungsbereich von '50' erzeugt eine normale Variation. Stimmungsbereiche größer 50 erzeugen animierte Stimmen.

'stress'

Wert:

<number> | inherit

Ausgangswert:

50

Angewendet auf:

Alle Elemente

Vererbt:

Ja

Prozentsätze:

N/A

Medium:

aural

Gibt die Höhe „lokaler Spitzen“ in der Intonationskontur einer Stimme an. Beispielsweise ist Englisch eine betonte Sprache, und unterschiedliche Abschnitte eines Satzes erhalten eine primäre, sekundäre oder tertiäre Betonung. Der Wert von 'stress' steuert die Abweichung, die aus diesen Betonungszeichen resultiert. Diese Eigenschaft begleitet die Eigenschaft 'pitch-range' und wird bereitgestellt, um den Entwicklern die Möglichkeit zu eröffnen, professionelle akustische Ausgabegeräte zu nutzen.

Die Werte haben die folgenden Bedeutungen:

<number>
Ein Wert zwischen '0' und '100'. Die Bedeutung dieses Werts ist von der gesprochenen Sprache abhängig. Ein Wert von '50' beispielsweise für eine standardmäßige englisch sprechende Männerstimme (durchschnittliche Stimmung = 122 Hz), die mit normaler Intonation und Betonung spricht, hätte eine andere Bedeutung als der Wert '50' für eine italienische Stimme.

'richness'

Wert:

<number> | inherit

Ausgangswert:

50

Angewendet auf:

Alle Elemente

Vererbt:

Ja

Prozentsätze

N/A

Medium:

aural

Gibt den Umfang der Sprechstimme an. Eine umfassende Stimme „trägt“ in einem großen Raum, eine glatte Stimme nicht. (Der Begriff „glatt“ bezieht sich auf die Darstellung der Wellenform.)

Die Werte haben die folgenden Bedeutungen:

<number>
Ein Wert zwischen '0' und '100'. Je höher dieser Wert ist, desto mehr trägt die Stimme. Ein geringerer Wert erzeugt eine sanfte, honigsüße Stimme.

19.9 Spracheigenschaften: 'speak-punctuation' und 'speak-numeral'

Eine zusätzliche Spracheigenschaft, speak-header, ist im Kapitel 17 über Tabellen beschrieben.

'speak-punctuation'

Wert:

code | none | inherit

Ausgangswert:

none

Angewendet auf:

Alle Elemente

Vererbt:

Ja

Prozentsätze:

N/A

Medium:

aural

Diese Eigenschaft legt fest, wie die Interpunktion ausgesprochen wird. Die Werte haben die folgenden Bedeutungen:

code
Die Interpunktion wie beispielsweise Semikolons, Klammern usw. werden wörtlich ausgesprochen.
none
Die Interpunktion wird nicht gesprochen, sondern durch unterschiedliche natürliche Pausen dargestellt.

'speak-numeral'

Wert:

digits | continuous | inherit

Ausgangswert:

continuous

Angewendet auf:

Alle Elemente

Vererbt:

Ja

Prozentsätze:

N/A

Medium:

aural

Diese Eigenschaft steuert, wie Zahlen ausgesprochen werden. Die Werte haben die folgenden Bedeutungen:

digits
Die Zahlen werden als einzelne Ziffern ausgesprochen. „237“ wird also als „Zwei Drei Sieben“ ausgesprochen.
continuous
Die Zahl wird als vollständige Zahl ausgesprochen. „237“ wird also als „Zweihundertsiebenunddreißig“ ausgesprochen. Die Wortdarstellungen sind sprachabhängig.