Skip to content

The Game of N-Grams

Wir befinden uns auf einen Scheideweg, einer Zeit die unterschiedlich in den Geschichtsbüchern benannt werden wird. Auf der einen Seite befinden sich die Erleuchteten, die skeptisch die Handlungen und Entwicklungen des großen Gs in Frage stellen. Ihnen gegenüber steht die Gruppe des Widerstand. Eine Gruppe die ebenso skeptisch auf das große G blickt, aber versucht die Zeichen zu deuten und den Blick in eine Zukunft der Veränderungen wagt. In diesem Spiel der N-Grams werden die Karten neu verteilt und das Fundament auf dem wir bauen, wird sich möglicherweise grundlegend verändern.

Der N-Gramme erster Teil

Ich wollte nie der Schreiber sein, der diese Geschichte als erstes zu einem digitalen Blatt Papier bringt und doch sagte mir die Konstellation der Sterne, dass ich einfach meine Beobachtungen zum Besten geben sollte. Nur durch das Teilen von Wissen werden wir uns entwickeln können, oder wie sagte es ein gewisser graubärtiger Zauberer „Wir sind so stark, wie wir einig, und so schwach, wie wir gespalten sind.“.
In dieser Geschichte geht es um die heiligen N-Gramme und wie mich Prinz Karl, Schatzmeister Malte und der Minister für Bildung Oliver dazu brachten darüber zu berichten.
An einem Morgen nach dem Beginn der fünften Jahreszeit musste ich in einem Buch lesen, dass der Minister für Bildung Oliver den Vogel Kolibri, ein Zeichen für die Erleuchteten, für überwertet hält. Mit einige Skepsis nahm ich diese Aussage auf und beobachtete das Treiben, dass um diese Aussage geführt wurde. Seine Aussage fand Anklang und es stimmten einige zu, aber es gab keine Diskussionen auf dem Marktplatz. Lag es daran, dass Diskussionen in der fünften Jahreszeit verpönt sind?
Ich vernachlässigte mit den Stunden das Beobachten und widmete mich meiner Berufung. Ich schrieb Buchstabe um Buchstabe, Zeile um Zeile um damit magische Dinge auf dem digitalen Papier geschehen zu lassen. Manchmal wirkt es dabei wie Zauberei. Irgendwann las ich, dass ich verfolgt werde. Unser Schatzmeister Malte, der allen als Herr der Zahlen und Daten bekannt ist fand heraus, dass meine Identität gespalten war. Das große G sorgte für Verwirrung um Aussagen, die aus meiner Feder stammten. Solche Identitätskrisen sind jedoch ab und zu beim großen G zu beobachten. Dieses Detail bekam jedoch einen Teil meiner Aufmerksamkeit, als ich sah wie mein Identitätsverlust aufgedeckt wurde. Mein Name wurde mit den NGrammen in Verbindung gebracht. Wurde ich damit als Erleuchteter entlarvt? Ich musste überlegen wie ich damit umgehe und kam zu dem Schluss, dass ein Angriff die beste Verteidigung sei. Bestärkt von Prinz Karl entschied ich mich meine Gedanken zu den N-Grammen nieder zu schreiben.

Die Heiligtümer des Googols

Es begab sich vor langer Zeit, da wollte das große G alles Wissen vereinen. Wissen, dass von allen Menschen zusammengetragen und konsumiert werden kann. Mit dem Wissen, dass niemals ein Mensch in der Lage sein wird alles zu lesen entschied sich das große G die Inhalte zu klassifizieren. Die Klassifizierung fand über Empfehlungen statt, aber diese wurden leider von Menschen manipuliert. Wie sollte man nun herausfinden, welche Inhalte wirklich eine Relevanz für den wissbegierigen Suchenden haben? Das große G überlegte lange und fand heraus, dass man schnell Inhalte auf dem digitalen Papier veröffentlichen kann. Aber der Gang über analoges Papier war schwieriger und aufwendiger. Es war eine Idee geboren: Das große G möchte die analogen Inhalte auf digitales Papier schreiben. Leider sind viele Dokumente aus der vergangen Zeit nur noch schwer lesbar. Die Texte musste jedoch digitalisiert werden, also gab es eine Technik namens OCR, die man weiter entwickelte um die Fehlertoleranz beim Einlesen von digitalen Papier möglichst gering zu halten. Die Entwicklungen waren großartig und man fand Wege wie man die Suchenden aktiv an der Digitalisierung teilhaben lassen kann und zeitgleich einen Schutz gegen manipulative Menschen schafft.
Das große G wollte etwas an die Nutzer zurück geben und stellt die Ergebnisse der Digitalisierung allen Interessenten zur Verfügung.
Diese sogenannten N-Gramme bilden einen Korpus aus ein bis fünf Wort Phrasen die auf analogen Papier vorkamen, an denen sich jeder bedienen kann. Doch nur die wenigsten erkannten die Absicht hinter den N-Grammen.
In ihrer ersten Version am 15.09.2009 veröffentlicht wurden die N-Gramme am 01.07.2012 aktualisiert. Daten die ich direkt mit Koffein, Marken und Pinguinen verbinde. Aber worin besteht die Macht dieser N-Gramme?
Kann man mit diesen vielleicht herausfinden wie sich Sprache entwickelt? Geben diese Informationen darauf wie sich digitale und analoge Texte voneinander unterscheiden? Könnte dieses Wissen genutzt werden um Sprache zu identifizieren, die ungewöhlich ist? Welche Möglichkeiten hat das große G mit diesen gewonnen Wissen?

Die Suche nach den N-Kruxen

Wenn man den Korpus der 1-Gramme keinerlei Beachtung schenkt, so erhält man von den Heiligtümern des Googols 2 bis 5 Wort Kombinationen inklusive ihrer Auftrittshäufigkeit und Auftrittswahrscheinlichkeit aus der analogen Welt. Texte die von keinem Handlanger verfasst wurden, sondern Wissen, dass von Menschen sorgfältig recherchiert und niedergeschrieben wurde. Diese N-Gramme wurden akribisch nach Sprache klassifiziert und es existieren sogar alternative Klassifizierungen wie „English Fiction“. Thematische Gliederungen innerhalb von sprachabhängigen Klassifizierungen. Eine weitere Ebene zur Definition und Erkennung von Texten. Wenn wir beispielsweise den Prefix Term „Guten “ nehmen erhalten wir die Möglichkeit den wahrscheinlichsten Folgeterm zu ermitteln. Dies kann anhand der Heiligtümer der Googols bis zum vierten N-Krux der 5-Gram Phrase berechnet werden. Werte über die sich nicht nur unser geschätzter Prinz Karl und unser Schatzmeister Malte freuen, sondern auch das große G. Die Erkennungswahrscheinlichkeit von Pinguinen steigt und die Rate an False-Positives wird minimiert, natürlich auch dank der zahlreichen Unterstützung blauer Briefempfänger.

Der Term „Guten “ und sein zweiter N-Krux

Was passiert nun, wenn man die Daten die man vom analogen Papier extrahiert hat mit den Ergebnissen aus Tools längst vergangener Zeiten vergleicht? Es gab eine Zeit in der man in Laboren Tools ausprobieren konnte. Eins dieser verlorenen Relikte ist Google Scribe. Wenn man mit diesem Tool eine Phrase begonnen hat wurden anhand der Wahrscheinlichkeit das folgende Wort vorgeschlagen.
Bei der Phrase „Guten “ wurden folgende 3 N-Kruxe angeboten:

scribe suggests

scribe suggests

Man kann unschwer erkennen, dass am wahrscheinlichsten die Phrase „Guten Morgen“ vor „Guten Abend“ und „Guten Tag“ angeboten wurde.

Wenn wir die entsprechenden N-Kruxe aus den 2-Grammen extrahieren, kommen wir zu dem folgenden Ergebnis:

2-Gram Guten Tag

2-Gram Guten Tag


2-Gram Guten Morgen

2-Gram Guten Morgen


2-Gram Guten Abend

2-Gram Guten Abend

Die Reihenfolge der 2-Gramme vom analogen Papier korreliert vollständig mit den Ergebnissen aus Google Scribe. Ein Schelm wer dabei an böses denkt.
Wenn wir die Phrase erweitern würden. Zum Beispiel „Es ist Abend. Guten “ würde sich die Reihenfolge in Google Scribe hin zum Term „Abend“ als wahrscheinlichesten N-Krux verschieben.

Die Moral von der Geschichte

Die Moral müsst ihr schon selbst herausfinden. Das Denken kann ich für niemanden übernehmen, aber die Zukunft wird zeigen, ob die Geschichten der Erleuchteten oder die des Widerstands Wegbereitend sein werden. In meinen Augen sind die Weichen seit vielen Jahren auf etwas gestellt, das sich abseits von Links befindet.
Explizit möchte ich auch noch erwähnen, dass in den aktuellen N-Grammen die einzelnen Worte mit einen POS Tag versehen sind.

Pos Tagging

Pos Tagging

An dieser Stelle beende ich meine Geschichte. Welches Ende sie final nehmen wird das obliegt dem großen G.

Jens Altmann

Avatar Jens Altmann

Jens Altmann bloggt auf gefruckelt.de regelmäßig über alle Themen, die ihn interessieren. Neben seiner Tätigkeit als Softwarearchitekt studiert er Wirtschaftsinformatik an der Uni Potsdam.

Weitere Informationen über Jens Altmann

Interessante Artikel

Kommentare

3 Kommentare

  1. Malte Landwehr November 12, 2013

    Ich denke hier muss unterschieden werden zwischen a) „Was Google im Google Ngram Viewer zeigt“ und b) „Was Google mit N-Grams zur Bewertung und Klassifikation von Texten macht“.

    Meine unstrukturierten Gedanken dazu:

    Überlegung 1:
    Anstatt einen Text als Vektor über dem ein-dimensionalen Raum aller Worte (=1-Gramme) aufzufassen, kann man ihn als Vektor im ein-dimensionalen Raum aller 1- bis M-Gramme betrachten. Alternativ auch als Vektor im M-dimensionalen Raum wobei jede Dimension alle N-Gramme dieser Dimension enthält. Da beides äquivalent ist, wird ggf. auch je nach Algorithmus zwischen beiden Repräsentationen gewechselt.
    Mit dem (wie auch immer gearteten) N-Gramm-Vektor ließe sich schon mal deutlich mehr machen als mit dem Wort-Vektor. Im Prinzip ließen sich alle Fragen beantworten, die Prinz Karl immer erwähnt wenn es um Texte geht (Wovon handle ich? Wie grenze ich mich von ähnlichen Texten ab? Bin ich Spam?).

    Überlegung 2:
    Als Referenz für einige der Fragen ist es notwendig, trusted Texte zu haben. Und hier ist es meiner Meinung nach _NICHT_ möglich, einfach offline Texte zu verwenden. Das klappt für News und Informationstexte aber nicht für eCommerce oder Formate, die es offline gar nicht gibt. eCommerce im Offline-Business (jaja Unwort und so) besteht z.B. quasi nur aus Bildern und sehr knappen Beschreibungen. Zumindest war das so als ich zuletzt in einen Otto-Katalog geschaut habe. Oder MicroBlogging; womit will man das vergleichen? Hinzu kommt, dass Menschen komplexe Texte auf Papier besser verstehen als am Monitor und sich Zusammenhänge besser merken (dazu gibt es diverse Studien). Das bedeutet, dass auch seriöse online Texte etwas simpler als offline Texte geschrieben sein sollten. Und durch Screenreader und bestimmte Devices (Smartphone, Tablett, Spielekonsolen, Google Glass, Siri) muss online Text einfach anders strukturiert sein als offline Text.

    Da es möglich ist, einen für WDF-IDF funktionierenden Dokument-Korpus auszuwählen, sollte das auch für N-Gramme klappen.

  2. Jens Altmann November 12, 2013

    Danke für deine Worte Malte.
    Ich sage ja auch explizit nicht was Google mit den Texten macht, ich lasse dafür Raum. Dass das Internet sehr viel schnelllebiger ist und der Korpus sehr viel dynamischer sein muss als das was aus Büchern kommt sollte jedem klar sein. Wenn man die Daten jedoch hat und diese sogar mit Pos Tagging versieht kann man damit viel anstellen. Aber darüber können wir uns ja mal in Ruhe unter halten ;)

  3. Uwe Walcher November 13, 2013

    Hi Jens,
    sehr schön das du das teilst. Maltes Kommentar musste ich mir zwar erst 2 * durchlesen, um zu verstehen, was er meint, aber die möglichen Anwendungsfälle sind wirklich enorm. Denke aber, das ich die Daten für meinen Hausgebrauch erst mal etwas reduzieren werde (Jahre zusammenfassen), um dann z.B. eine schöne Prüfung für die Qualität von Kommentaren hinzubekommen.

Kommentiere den Artikel

Required

Required

Optional