Archiv für Juni, 2014

clunc – Themenideen für die Konferenz

Der 11. Juli rückt immer näher und damit der Starttag von clunc – der Computerlinguistik-Unkonferenz. Und wie sich das für ein Barcamp gehört schlagen die Teilnehmer selbst Themen vor und tragen als Sprecher zum Erfolg der Unkonferenz bei. Ich habe mir ein paar Gedanken gemacht…


ganzen Artikel lesen

clunc – die ComputerLinguistik-UNConference

clunc – das BarCamp für und über Computerlinguistik geht an den Start. Die Bedeutung der Computerlinguistik für unsere Welt ist unbestritten und mit den aktuellen Meldungen um den Roboterjournalismus wie beispielsweise in der Welt oder der Wirtschaftswoche ist ein weiterer Höhepunkt erreicht.


ganzen Artikel lesen

Datenknappheit und Natural Language Generation

Datenknappheit im Zeitalter von „Big Data“? Kann es das geben, wo doch alles in riesigen Datenmengen zu ertrinken scheint und man hofft, von klugen Programmen die Aussagen aus den Daten gefiltert zu bekommen?

Aber gerade die Datenknappheit ist eines der größten Probleme im Umgang mit großen Datenmengen, die die New York Times anführt: Im Bereich von Text haben viele Robots wie etwa Suchmaschinen oder Übersetzungprogramme Schwierigkeiten genügend passendes Datenmaterial zu finden. Auch im Bereich der Computerlinguistik ist diese Knappheit natürlichsprachlicher Daten ein viel diskutiertes Kernthema. Entscheidende ist die Frage: Wie kann man ihr begegnen?

Natural Language Generation braucht riesige Mengen an Sprachmaterial

Sowohl beim Parsing von (Text-)Korpora, als auch bei der NLG (Natural Language Generation) spielen „ungesehene Textereignisse“ (engl. „unseen events“) immer wieder eine Rolle – vor allem bei der Beschreibung der Grenzen maschineller Verarbeitung von Text. Bisherige Text-Generierungs-Maschinen können Text im und aus dem Web nur aufarbeiten oder erkennen, sofern sie bekannte Muster einer Textsorte oder eines Stils bereits erlernt haben.

Das ist vor allem problematisch bei Textmaschinen, die mit N-Gramm-Methodiken arbeiten, da die Kompositionalität von Sprache und die synchrone Sprachentwicklung unentwegt fortschreiten. Neues Sprachmaterial wird dabei zur Herausforderung. Kürzlich hat Google seine umfangreiche Statistik zu Grammatik und Nachbarschaft von Wörtern öffentlich zur Verfügung gestellt: Ein riesiger Datenschatz in unzähligen Sprachen. Diese Veröffentlichung ist nicht ganz uneigennützig, denn auch bei Google hat man Interesse an der Weiterentwicklung der statistischen Sprachmodelle (language models) und hofft auf Unterstützung von anderen Forschern.

Textgenerierung: Zwischen Kreativität und Algorithmus  

Insgesamt leiten sich für die Zukunft der maschinellen Texterstellung zwei Hauptziele für die (wissenschaftliche und industrielle) Anwendung ab: Neben der Entwicklung von geeigneten Modellen zur Abbildung von Sprache und der Interpretation von Daten wird es auch darauf ankommen, Sprache automatisiert kreativ verwenden zu können. Den scheinbaren Widerspruch zwischen den Extremen „Kreativität“ und „Algorithmus“ aufzulösen, wird daher einen historischen Wendepunkt in der Generierung von Texten bedeuten.