Machbarkeit computergestützter Literaturanalyse durch Texteingabe in computergerechter Sprache
In der Bevölkerung wird der Sinn der komplizierten, teils widersprüchlichen Rechtschreibregeln oft angezweifelt. Sie entsprächen angeblich nicht dem Willen des Volkes und müssten geändert werden. So wurde die Rechtschreibung 1996 maßgeblich reformiert, die Reformen dann aber bis spätestens 2010 maßgeblich wieder zurückgerudert. Hierdurch entstand ein Doppelbruch in der deutschen Schriftkultur, zu dessen volkswirtschaftlichen Schaden keine verlässlichen Zahlen vorliegen.
Obgleich aber in der Bevölkerung eine Abkehr von der Idee der Rechtschreibung zu verzeichnen ist, brauchen wir genaugenommen eine noch weit über das Maß der amtlichen Rechtschreibung hinaus genormte, maschinenverständliche Sprache. Stell dir vor, du fütterst einen Roman in maschinenverständlicher Sprache mit Normvokabular und eindeutiger Grammatik in den Computer, und der Computer zeichnet dir dann zu jedem Satz Syntaxdiagrammbäume und modelliert aus den Beschreibungen der Szenerie und seinem Wikipediawissen über die Welt ein computerverständliches Szenario, welcher Charakter wann mit wem interagiert und welchen Gegenstand er dabei benutzt und wie sich das Szenario im zeitlichen Verlauf verändert und erkennt automatisch Widersprüche in der Handlung und kann Fragen zum Inhalt beantworten, vorausgesetzt sie werden maschinenverständlich formuliert, und kann automatisch eine 1000-seitige Interpretation schreiben unter besonderer Berücksichtigung vorgegebener Aspekte.
Noch sind wir auf dem Stand, dass ein Computer nur das kann, wozu er programmiert wurde. Das mag sich vielleicht irgendwann ändern, aber vorher haben wir mehrere Ethik-Kommissionen, die klären wollen, ob so etwas überhaupt statthaft ist. Vor dem Programm hat der liebe Gott schließlich die Vorstellung des Programmierers über das Ergebnis gesetzt. Doch so weit müssen wir gar nicht ausholen, denn der Computer wäre ja dazu programmiert. Er würde den Text einfach in ein XML-Dokument übersetzen und dann mit anderen XML-Dokumenten abgleichen, ganz stur, 100 % determiniert, ohne Zauberei, ohne gefährliche KI-Technik.
Nehmen wir als Beispiel die durchaus zu befürwortende Verbreitung südkoreanischer Gebrauchsanweisungen im XML-Format: Man könnte hier zum Beispiel fragen, welche inhaltlichen Gemeinsamkeiten zwischen südkoreanischen Gebrauchsanweisungen und Romeo und Julia bestehen. Der Computer würde kurz ein paar XML-Datensätze durchrattern und dann brilliante Querverbindungen herstellen, auf die man als Mensch so gar nicht kommen würde. Oder solche Fragen wie „Was wollte Goethe mit seinem Faust aussagen?“ Um eine Antwort zu finden analysiert der Computer die Dialoge, modelliert die Szenerie, ordnet Goethe soziologisch und historisch ein, entwirft zusätzliche Bedeutungsebenen nach dem Vier-Ohren-Modell von Professor Friedemann Schulz von Thun. Nun, was wollte Goethe also mit seinem Faust aussagen? War es nicht nur ein zeitgenössisches Theaterstück, zugeschnitten auf den durchschnittlichen Intellekt der damaligen Theaterbesucher – die eben keinen Computer hatten? Erinnert sei hier an die Interpretationen des „…mehr Licht“ als philosophische Aussage, Goethe habe nur mehr Milch in seinen Blümchenkaffee haben wollen. Was Goethe mit seinem Faust aussagen wollte, ist dagegen ein großes Mysterium. Die Wissenschaft vermutet, er wollte damit rumnerven und fand sich selber geil, der gleiche Grund übrigens, warum anno 2016 jemand die Rechtschreibkorrektur der gesamten Kamelopedia forciert. Doch um diese Hypothese zu untermauern, müsste man erstmal Goethe in all seinen Facetten in mühevoller, jahrelanger Kleinstarbeit auseinandernehmen. Der Computer könnte das in Sekundenbruchteilen an mehreren Hypothesen parallel bewerkstelligen.
Die Voraussetzung für genormte, maschinenverständliche Sprache sind eindeutige Syntax und eindeutige Semantik, beides Probleme, die im Prinzip gelöst sind, und nur noch einer konkreten Referenzimplementation bedürfen. Eine kontextfreie Grammatik für die deutsche Sprache oder auch für die englische Sprache lässt sich durch Spezial-Interpunktion mittels noch zu schaffender Unicodezeichen oder Escapesequenzen leicht realisieren. Auf der Bedeutungsebene ist ein spezieller Normwortschatz erforderlich. Damit der Computer „Romeo“ nicht als unvollständige Automarke und „Julia“ nicht als Kalenderfragment interpretiert, darf es in computerverständlicher Sprache keine Homonyme geben. Wenn jetzt also alle Homonyme zu einem eigenen Wort erfunden werden, müsste die deutsche Sprache mehr als 500.000 Wörter aufweisen. Die Wörter könnten z.B. „Romeo1“, „Romeo2“, „Romeo3“ oder auch „Alpha Romeo“, „Beta Romeo“ usw. heißen. Man muss sich bei der Namensfindung also schonmal nicht das Gehirn kaputtmasturbieren; wichtig ist nur, dass es ein computerlesbares Semantikwörterbuch zu all diesen Begriffen gibt, in welchem die Eigenschaften, Fähigkeiten und Beziehungen der Einträge tabellarisch oder hierarchisch aufgeschlüsselt sind.
Da die deutsche Sprache derzeit etwa 350.000 Wörter hat, die Bulgarische aber nur etwa 50.000, entstehen beim Hin- und Herübersetzen zuweilen recht beeindruckende Artifakte; der Ausdruck „ein Rad schlagen“ hat bereits mindestens drei Bedeutungen. Betrachtet man näher die Gepflogenheiten der Kommunikation einer lieben Frau, so fällt auf, dass sie durchaus in der Lage ist, einen Satz mit fünf Nebensätzen auszusprechen, wobei jeder Nebensatz ein eigenes Thema behandelt und nichts mit den anderen Nebensätzen zu tun hat. Ohne eindeutige Syntax und Semantik entsteht mit zunehmender Komplexität der Sprachhandlung ein nichtlinear anwachsender Baum an kombinatorisch möglichen Bedeutungsmöglichkeiten, welcher den Computer zum Absturz bringen könnte. Ein in computergerechter Sprache formulierter Satz kann jedoch beliebig komplex gefasst sein, trägt aber dennoch eine eindeutige Struktur und Bedeutung, die der Computer mit Leichtigkeit verarbeiten kann. Um bei dem Beispiel zu bleiben: Einen Satz mit fünf Nebensätzen, wobei jeder Nebensatz ein eigenes Thema behandelt, kann der Computer mit Leichtigkeit entwirren, in kurze, einfache Sätze umformulieren und zwischen den Themenwechseln automatisch Absätze einfügen.
Das Hauptproblem ist vermeintlich, inwiefern ein Computer sinnvoll abstrahieren kann, inwiefern er den Abstrahierungsgrad des Gelesenen oder Gehörten anpassen kann. Genau dies soll der Computer aber nicht tun. Wie gesagt, es geht hier nicht um irgendwelchen KI-Voodoo. Der Computer muss die eingefütterte Information gar nicht abstrahieren, weil er im Gegensatz zum Menschen schnell arbeitet und viel Arbeitsspeicher hat. Er darf einen 500-Kilobyte-Roman durchaus auf ein paar Gigabyte aufblähen. Am Ende der Analyse startet der Anwender eine Suchabfrage und pickt sich die Erkenntnisse raus, die ihn interessieren, z.B. ob Goethe schwul war, und sortiert die Ergebnisse nach Relevanz. So lässt sich wahlweise eine 1000-seitige Ausarbeitung oder eine kurze Zusammenfassung zur bearbeiteten Fragestellung auswerfen. Dadurch entsteht schon eine gewisse Abstraktion, die aber letztlich der Anwender vornimmt. Eine Vorab-Abstraktion durch den Computer wäre dagegen nicht sinnvoll.
Computer können bereits untereinander sehr gut und völlig frei von Missverständnissen und Fehlinterpretationen kommunizieren. Dies soll in Zukunft auch für die Kommunikation mit dem Menschen gelten. Die volumenmäßige Aufblähung des Textes bei der syntaktischen, semantischen und inhaltlich-logischen Analyse und dem Abgleich mit Wikipediawissen kann dabei flüchtig erfolgen, muss weder an andere Computer übertragen noch archiviert werden, da sie determiniert erfolgt und in endlicher Zeit reproduziert werden kann. Der menschliche Nutzer kann in der großen Blase neuer Erkenntnisse – wie bereits beschrieben – frei navigieren und sich herauspicken, was ihn interessiert. Er wird aber aus Gründen der Übertragungsgeschwindigkeit und Gehirnkapazität immer nur einen Teil des Metawissens über ein gegebenes literarisches Werk absorbieren können. Ob die Übertragungsgeschwindigkeit von Maschine zu Mensch durch spezielle Gehirn-Schnittstellen erhöht werden sollte, zu deren Implantation das Gehirn im wahrsten Sinne an bestimmten Stellen angeschnitten wird, ist nicht Gegenstand dieser Arbeit.