Information ist beseitigte Ungewissheit. Wir wissen also mehr, wenn wir Information aufgenommen haben, und wir wissen weniger, wenn wir Information wieder vergessen haben.
Wie kann man Information aufnehmen? Indem man ein Experiment durchführt und den Ausgang des Experiments beobachtet. Vor Durchführung des Experiments herrscht Ungewissheit über den Ausgang des Experiments, hinterher kennen wir den Ausgang des Experiments und die Ungewissheit ist beseitigt.
Beispiele für Experimente: Beobachten, ob ein Stein zu Boden fällt; Messen, ob eine Spannung 0V oder 5V beträgt; Lesen, ob ein bestimmter Buchstabe in einem Buch ein "a" oder ein "b" usw. oder ein "z" ist; Scannen, ob ein Bildpunkt rot, gelb oder blau ist; Fragen, ob man nach rechts oder nach links abbiegen muss.
Wieviel wissen wir mehr, nachdem wir das Experiment durchgeführt haben? Dies hängt von den möglichen Ausgängen des Experiments ab. Im Prinzip nehmen wir umso mehr Information auf, je größer unsere Überraschung ist, wenn wir den Ausgang des Experimentes beobachten.
Wenn wir einen Stein in die Hand nehmen und ihn loslassen, dann fällt der Stein zu Boden. Sind wir nach Durchführung des Experimentes schlauer als vorher? Nein - wir haben keine Information hinzugewonnen. Es bestand auch vor Durchführung des Experiments keine Ungewissheit über den Ausgang des Experiments, unsere Überraschung ist gleich Null.
Wenn wir einen Buchstaben lesen, so haben wir ziemlich viel Information gewonnen, denn der Buchstabe hätte ja auch jeder der anderen 25 Buchstaben sein können, aber diese Buchstaben sind nach dem Lesen alle ausgeschieden.
Je mehr mögliche Ausgänge ein Experiment hat, umso größer ist im Prinzip vor dem Experiment die Ungewissheit und nach dem Experiment die Überraschung und damit der Informationsgewinn. Aber der Gewinn an Information hängt nicht nur von der Anzahl der möglichen Ausgänge eines Experiments ab, sondern auch von deren Wahrscheinlichkeiten.
Angenommen wir wissen, dass die Spannung an einem gewissen Punkt fast immer 0V beträgt und nur ganz selten einmal 5V. Wir führen das Experiment durch und messen 0V. Damit sind wir nur wenig schlauer als vorher, denn 0V hatten wir auch erwartet. Messen wir dagegen 5V, so sind wir überrascht; der Gewinn an Information ist größer.
Die Information, die bei einem bestimmten Ausgang eines Experimentes gewonnen wird, lässt sich in folgender Weise quantifizieren.
Definition: Sei X ein Experiment mit den möglichen Ausgängen e1, ..., en und den zugehörigen Wahrscheinlichkeiten P(e1), ..., P(en). Dann beträgt der Informationsgehalt I des Ausgangs ei
I(ei) = - log2(P(ei)).
Beispiel: Beim Wurf einer Münze gibt es die beiden möglichen Ausgänge "Kopf" und "Zahl". Beide haben die gleiche Wahrscheinlichkeit von je 50%. Der Informationsgehalt des Ausgangs "Kopf" (und damit auch des Ausgangs "Zahl") beträgt
I("Kopf") = - log(1/2) = log(2) = 1.
Dieses Ausmaß an Information, das bei der Durchführung eines Experimentes mit zwei gleichwahrscheinlichen Ausgängen erzielt wird, ist die Einheit der Information. Die Einheit der Information wird Bit genannt.1)
Beispiel: Beim Würfeln gibt es sechs mögliche Ausgänge 1, ..., 6 mit jeweils der Wahrscheinlichkeit 1/6. Der Informationsgehalt des Ausgangs 1 (und damit auch der anderen Ausgänge) beträgt
I(1) = - log(1/6) = log(6) = 2.6
Beim Lesen eines Buchstabens gibt es 26 mögliche Ausgänge "a", ..., "z". Nehmen wir zunächst an, dass alle Buchstaben gleichwahrscheinlich sind, d.h. jeweils die Wahrscheinlichkeit 1/26 haben. Der Informationsgehalt des Buchstabens "a" (und damit auch der anderen Buchstaben) beträgt dann
I("a") = - log(1/26) = log(26) = 4.7
Tatsächlich kommen in deutschen Texten die 26 Buchstaben des Alphabets mit unterschiedlicher Wahrscheinlichkeit vor. Der Buchstabe "e" hat eine Wahrscheinlichkeit von P("e") = 17%, der Buchstabe "f" dagegen nur eine Wahrscheinlichkeit von P("f") = 1.7%.
Aufgabe 1: Berechnen Sie den Informationsgehalt des Buchstabens "e" und des Buchstabens "f" auf Basis der Wahrscheinlichkeiten P("e") = 17% und P("f") = 1.7%.
Die Funktion I hat die wünschenswerte Eigenschaft, dass sich die Informationsgehalte addieren, wenn ein Experiment zweimal durchgeführt wird (und die Ausgänge der Experimente unabhängig voneinander sind).
Ist S = e1, ..., en die Menge der möglichen Ausgänge des einfachen Experiments, so ist
S × S = { (ei, ej) | ei, ej ∈ S }
die Menge der möglichen Ausgänge des zweimaligen Experiments. Wenn der Ausgang des zweiten Experiments unabhängig vom Ausgang des ersten Experiments ist, so gilt für die Wahrscheinlichkeit
P(ei, ej) = P(ei) · P(ej)
und damit für den Informationsgehalt
I(ei, ej) = - log(P(ei, ej)) = – log(P(ei)·P(ej)) = – log(P(ei)) – log(P(ej)) = I(ei) + I(ej).
1) Die Bezeichnung "Bit" wird auch für eine Stelle einer Binärzahl verwendet, z.B. "das letzte Bit der Binärzahl 10010". Beide Bedeutungen stehen im Zusammenhang miteinander, sind aber nicht identisch.
Weiter mit: [up]