Markoff-Prozesse

Der klassische Markoff-Prozeß ist die natürliche Sprache. Sie hat neben ihrer Redundanz durch ungleich häufige Zeichen eine beträchtliche Vorhersagbarkeit jedes Zeichens durch seine Vorgänger (beides gilt für Schrift- wie für Lautzeichen). Shannon hat dies an der englischen Schriftsprache veranschaulicht. Je weiter man die Einwirkung vorausgehender Buchstaben einer Zufallsfolge von Zeichen statistisch an diejenige der wirklichen Sprache angleicht, um so mehr nähert sich ihr ein solcher sinnloser Text. Hier seine Beispiele unter Verwendung von 26 Großbuchstaben und dem Zwischenraum: Derartige Prozesse sollen nun formal behandelt werden.

Definitionen

Ein Markoff-Prozeß kann definiert werden durch
  1. einen Zeichenvorrat X: = {x, . . . ,xK}, aus dem er eine unendliche Folge von Zeichen schrittweise auswählt,
  2. mögliche Zustände Si (i = 1, . . . , n), die er (wiederholt) einnimmt,
  3. je eine Wahrscheinlichkeitsverteilung pik für das Auftreten des nächsten Zeichens xk im Zustand Si,
  4. Wahrscheinlichkeiten p(Sj|Si) für den Übergang vom Zustand Si in den Zustand Sj.
Eine Markoff-Quelle erzeugt bei jedem Übergang ein Zeichen. Die Folge dieser Zeichen heißt Markoff-Kette. Hier soll speziell der Fall betrachtet werden, daß die Zustände durch die vorangehenden Zeichen bestimmt sind. In diesem Fall ergeben sich die Übergangswahrscheinlichkeiten aus den Zeichenwahrscheinlichkeiten Sik. Bei einem Alphabet mit K Zeichen und dem Einfluß von je r  vorangehenden Zeichen gibt es n = K r verschiedene Zustände Si.

Stochastische Matrizen

Zur Beschreibung von Markoff-Prozessen ist ein Typ von Matrizen nützlich, die als stochastische Matrizen bezeichnet werden. Sie sind definiert durch die beiden Eigenschaften
  1. Ihre Elemente sind nichtnegativ.
  2. Alle Zeilensummen sind gleich Eins.
Daraus folgen recht einfach die folgenden drei Sätze.
Wenn A und B stochastische Matrizen sind, dann ist auch die Produktmatrix C = A B stochastisch.
Beweis:

  1. Das Matrixelement
    cmn.svg
    ist als Summe von Produkten nichtnegativer Zahlen selber nichtnegativ.
  2. Die Zeilensummen von C sind
    csum.svg
Beides gilt auch für nichtquadratische Matrizen, wenn nur die Spaltenzahl von A gleich der Zeilenzahl von B ist.
Jede quadratische stochastische Matrix A hat den Eigenwert 1, d. h. es gibt einen Zeilenvektor x mit A = x.
Beweis:

Hinreichend hierfür ist, daß die Determinante det(AE) gleich Null ist (E = Einheitsmatrix). Weil in A alle Zeilensummen gleich Eins sind, sind in A − E alle Zeilensummen gleich Null. Wir ersetzen in der Determinante irgendeine Spalte durch die Summe aller Spalten und erhalten dort lauter Nullen. Also ist det(A − E) = 0.

Mit der quadratischen stochastischen Matrix A hat auch An den Eigenvektor x zum Eigenwert 1.
Beweis durch vollständige Induktion nach n:

Für n = 1 gilt der Satz nach Voraussetzung. Wenn er für n − 1 gilt, dann folgt er auch für n, da

Iteration.svg
ist. Mit x ist auch jedes Vielfache davon ein Eigenvektor. Hier sind insbesondere diejenigen Eigenvektoren von Bedeutung, deren Komponenten Wahrscheinlichkeiten sind und daher so normiert sind, daß sie die Summe Eins haben. Wenn die stochastische r*r-Matrix (A − E) den Rang (r − s) hat, sind die Eigenvektoren Lösungen des homogenen Gleichungssystems x (A − E) = 0 mit s freien Parametern. Im Falle s = 1 ist ein normierter Eigenvektor also eindeutig bestimmt.

Beispiel: Eine Markoff-Quelle der Rückwirkung 2

Gegeben seien (siehe Heise und Quattrocchi, 1983)
  1. ein binärer Zeichensatz
    Binärsatz.svg
  2. die durch die vorangehenden beiden Zeichen bestimmten vier Zustände
    Zustände.svg
  3. Im Zustand Si sei das Zeichen xk mit der Wahrscheinlichkeit pik zu erwarten. Diese Wahrscheinlichkeiten sind in der folgenden Matrix P zusammengefaßt:
    Pbin.svg
  4. Anfänglich mögen die vier Zustände mit den Wahrscheinlichkeiten
    pi04.svg
    vorliegen.
Markoff2.jpg
Zustandsgraph für eine Markoff-Quelle der Rückwirkung r = 2 (nach Hamming, 1980)
Diese Markoff-Quelle kann durch diesen Zustandsgraphen dargestellt werden.

Hierin geht der Zustand Sj aus dem Zustand Si mit der Wahrscheinlichkeit p(Sj|Si) hervor. Diese Übergangswahrscheinlichkeiten ergeben sich hier aus der Definition der Zustände und aus den Zeichenwahrscheinlichkeiten. Sie lassen sich zu einer quadratischen stochastischen Matrix, der Markoff-Matrix zusammenfassen:

Markoff-Matrix.svg
Bei einem binären Zeichensatz hat diese Matrix in jeder Zeile ein oder zwei von Null verschiedene Elemente. Diese sind identisch mit den Elementen in der gleichen Zeile der oben angegebenen Matrix P.

Aus dem Zeilenvektor π0 der Anfangswahrscheinlichkeit der vier Zustände Si wird nach Wahl des ersten Zeichens die Zustandswahrscheinlichkeit

pi1(M).svg
Nach der Ausgabe von n Zeichen ist sie
pi-n(M).svg
Möchte man wissen, mit welchen Wahrscheinlichkeiten dann die Zeichen xk, hier also O und L, zu erwarten sind, dann muß man deren für die einzelnen Zustande Si als bekannt angenommenen Wahrscheinlichkeiten über alle (hier also vier) Zustände mitteln. Dies ergibt – als Vektor p(n) geschrieben –
pn(P).svg

Die Beispiel-Markoff-Matrix M hat den Eigenvektor

EV(M).svg
zum Eigenwert Eins. Man findet ihn als Lösung des linearen Gleichungssystems π (M − E) = 0, ergänzt durch die Bedingung, daß die Summe der Komponenten von π gleich Eins ist. Wie wir für stochastische Matrizen schon allgemein gesehen hatten, ist dieser Vektor dann auch Eigenvektor zu allen Potenzen der Matrix M. Haben die Zustände irgendwann im Laufe eines Markoff-Prozesses diese Wahrscheinlichkeiten, dann ändern sie sich also nie mehr.

Die Potenzen der Markoffschen Übergangsmatrix M n streben in diesem Beispiel mit wachsendem n gegen den Grenzwert

lim Mn.svg
Man erkennt das, indem man nachrechnet, daß M • M = M ist, wobei man verwendet, daß die Zeilensummen von M gleich Eins sind. (Nicht jede stochastische Matrix hat allerdings eine Grenzmatrix M.)

Unabhängig von der Wahl der anfänglichen Zustandsverteilung~$\Vec{\pi}_0$ strebt, wie eine gleiche Rechnung zeigt, die Folge~$\Vec{\pi}_0, \Vec{\pi}_1,\ldots$ gegen den Eigenvektor

GrenzEV.svg
Bei Beginn einer Beobachtung eines Markoff-Prozesses ist möglicherweise offen, in welchem Zustand er sich befindet. Wenn man von vorn herein die sich im Laufe des Markoff-Prozesses einstellende stationäre Zustandsverteilung π, also den Eigenvektor der Markoff-Matrix, annimmt, verzichtet man darauf, einen eventuell ablaufenden `Einschwing'-vorgang für die Wahrscheinlichkeitsverteilung der Zustände zu berücksichtigen.

Selbst wenn man den Anfangszustand eines Markoff-Prozesses mit Sicherheit kennt, läßt sich sein Verlauf nur im Sinne von Wahrscheinlichkeiten vorhersagen. Dies gilt ja bereits für die Zustandsverteilung nach dem ersten Schritt. Auch in dieser Situation ist für Vorhersagen über mehrere Schritte hinweg die stationäre Verteilung π0 eine sinnvolle Näherung. An einem vertrauten Beispiel illustriert: Bei geschriebenem Text kann man zwar noch die nächsten ein, zwei oder drei Buchstaben aufgrund ihres Zusammenhanges mit den vorangehenden Zeichen abweichend von ihrer mittleren Häufigkeit im Text recht gut vorhersagen, für etwa den zwanzigsten bleibt einem jedoch nicht viel mehr Information übrig als die mittlere Häufigkeit

p = π P.
Im betrachteten Beispiel ist der Vektor p gleich (21, 20)/41.

Die einfachste Approximation einer rückwirkungsbehafteten Markoff-Quelle ist daher die durch eine rückwirkungsfreie Quelle, deren Zeichen diese über alle Zustände gemittelten Wahrscheinlichkeiten p haben.

Eine Markoff-Matrix M heißt regulär, wenn eine Grenzmatrix M ∞ existiert, deren Zeilen alle gleich dem Eigenvektor der Grenzzustandsverteilung π sind. Nicht alle Markoff-Matrizen haben diese Eigenschaft, wie das folgende Gegenbeispiel zeigt:

Gegenbeispiel.svg
Trotzdem gibt es hier als Eigenvektoren aller Potenzen von M die eindeutige stationäre Zustandverteilung π = (1/2, 1/2).

Klassifikation von Markoff-Prozessen

Die Menge der Zustände eines Markoff-Prozesses kann in Teilmengen unterschiedlichen Charakters zerfallen, und zwar in
  1. Teilmengen vergänglicher Zustände, Teilmengen,
  2. Teilmengen wesentlicher Zustände, die alle wiederholt durchlaufen werden können, nachdem einer von ihnen einmal erreicht worden ist, und keinen Zugang zu einer anderen solchen Teilmenge bieten.
Dies ist in der folgenden Abbildung am Beispiel dargestellt. Teilmengen vergänglicher Zustände sind {S1} und {S2, . . . , S5}. Teilmengen von wesentlichen Zuständen sind {S6, . . . , S8} und {S9, . . . , S12}. Im einfachsten Fall bestehen die Zustände nur aus einer einzigen Menge wesentlicher Zustände. Solche Markoff-Prozesse werden als ergodisch bezeichnet (Hamming, 1980).
Teilmengen.jpg

Vorhersage-Kodierung

Wie kann man im Sinne einer Quellenkodierung die Redundanz einer Markoff-Quelle durch Kodierung verringern, so daß also die Vorhersagbarkeit ihrer Zeichen geringer wird?

Hierzu läßt sich ein ganz allgemeines Prinzip anwenden, das der Vorhersage-Kodierung (engl. predictive encoding, siehe z. B. Hamming, p. 88). Es besteht darin, daß auf der Senderseite ein Prädiktor (etwa ein dafür programmierter Rechner) das kommende Zeichen vorhersagt und der Sender statt des Zeichens seine Abweichung von der Vorhersage überträgt. Der Empfänger stellt mit einem identischen Prädiktor aus den Abweichungen wieder das Originalsignal her.

Vorhersage.jpg
Prinzip der Vorhersage-Kodierung (nach Hamming, 1980)
(a) Vorhersage-Kodierung und (b) -Dekodierung
Im günstigsten Fall kann alle Vorhersagbarkeit, d. h. alle Redundanz aus der tatsächlich übertragenen Nachricht entfernt werden. Das setzt voraus, daß der Kodierer möglichst alle Information ausnutzt, die er über die Quelle hat oder im Betrieb gewinnt, also die Kenntnis der mittleren Zeichenhäufigkeiten, insbesondere aber auch des aktuellen Zustandes der Quelle aufgrund der vorangehenden Zeichen.

Wie die Einsparung an Redundanz praktisch genutzt werden kann, sei am Beispiel einer binären Quelle in der Abbildung gezeigt. Sie liefert eine Folge von Nullen und Einsen, die in einem XOR-Gatter verglichen werden mit einer Folge, die von der Vorhersageeinrichtung geliefert wird. Im ungünstigsten Fall, wenn zur Vorhersage keine Kenntnis über die Quelle herangezogen wird, sind Nullen und Einsen am Gatterausgang gleichwahrscheinlich. Je perfekter die Vorhersage aber ist, um so mehr Nullen gibt das Gatter ab. Dies läßt sich nutzen durch eine Kodierung, bei der anstelle der Binärzeichen die Länge der Nullenfolgen übertragen wird.

Auf der Empfängerseite wird zunächst diese Lauflängenkodierung rückgängig gemacht. Die entstehende Binärfolge wird in eine identische Vorhersageeinrichtung eingespeist, deren Ausgang wiederum in einem XOR-Gatter mit der gesendeten Folge verglichen wird. Dessen Ausgang ist das Originalsignal.

© Günter Green     zurück     weiter     zurück zum Anfang
  22-Sep-2018

Valid HTML 4.0 Transitional