Das maschinenlesbare Zeitungsarchiv als Chance für den Journalismus

Die Zeitungshäuser werden nicht müde, uns mitzuteilen, wie schlecht es ihnen geht. Während Anzeigenerlöse und Abonnentenzahlen sinken, fällt der Fokus der Aufmerksamkeit zunächst auf die Entwicklung neuer Finanzierungskonzepte: Da werden Leser gebeten, Werbung auf der Website zu akzeptieren, Bezahlschranken werden aufgebaut, man experimentiert mit freiwilligen Bezahldiensten und bewirkt für ein Magazin eine community-basierte Vorfinanzierung. Bei aller Beschäftigung mit der Monetarisierung darf eines nicht vergessen werden: Zeitungen und News-Portale leben von ihren Lesern, nicht von ihren Werbepartnern. Leser zahlen für Inhalte, wenn sie relevant und ansprechend aufbereitet sind. Die Aussage „Content is King“ (einst durch die Erstellung von Onlinemedien geprägt) gilt für alle Medien und sollte ein zentrales Leitmotiv der Zeitungshäuser werden. Eine konsequente Rückbesinnung darauf muss aber auch auf technischer Ebene stattfinden.

Technische Möglichkeiten nutzen

Längst haben wir Schreibmaschinen und Papier als starre und lineare Werkzeuge der Texterstellung hinter uns gelassen. Artikel werden heute mit Computern verfasst – höchste Zeit, diese Computer nicht mehr nur als bessere Schreibmaschine zu benutzen. Als News-Profis müssen Zeitungshäuser endlich anfangen, Inhalte nicht mehr nur als Stories zu betrachten, sondern als verknüpfbare Zusammenstellung von Daten. Reine Artikel können bisher nur von Menschen verstanden werden. Die Informationen in den Artikeln sollten mit ihren Beziehungen zueinander in einer Datenbank hinterlegt und somit für Computer besser zugänglich gemacht werden.

Das enorme Wandlungspotential der Nachrichtenproduktion

»So much of what local journalists collect day-to-day is structured information: the type of information that can be sliced-and-diced, in an automated fashion, by computers. Yet the information gets distilled into a big blob of text — a newspaper story — that has no chance of being repurposed.«

Datenzentrierter Nachrichtenansatz

Ein Beispiel: Die Nachricht einer Bürger-Demonstration enthält Informationen über den Austragungsort, Zeitpunkt und Dauer sowie Anzahl der Teilnehmer und deren Beweggründe. Diese Bestandteile der Nachricht können intern als strukturierte, maschinenlesbare Daten abgelegt werden. Der Nutzen eines solchen Nachrichtenarchivs wäre vielfältig:

  • Zukünftige Meldungen beispielsweise über weitere Demonstrationen, können sich auf diese Daten oder Teile davon beziehen.
  • Die Pflege der „harten Fakten“ könnte an zentraler Stelle passieren und damit Zeit und Geld sparen und das Risiko von Übertragungsfehlern eliminieren.
  • Datenbanken können sich durch weitere Quellen erweitern Informationen über Sportergebnisse, Wetter, Filme oder Bücher sind bereits online in strukturierter Form verfügbar.
  • Eine automatische inhaltliche Anpassung für weitere Medien (Mobile, Tablet, Website, Print) würde unterschiedlichen Nutzungsmotiven Rechnung tragen. Leser mit einem Smartphone als Anzeigegerät könnten beispielsweise spontan zu jener Demonstration dazustoßen, oder den verursachten Stau umfahren wollen.
  • Übersetzungen in andere Sprachen können durch das Wiederverwenden von Daten günstiger und schneller durchgeführt werden.
  • Große Datenmengen können von Computern besser und schneller erfasst und ausgewertet werden als von Menschen. Es gibt keinen Grund, warum der professionelle Umgang mit großen Datenmengen einzig dem Data Journalism vorbehalten sein sollte.

Content Produktion wichtiger als SEO!

Content Creation hat 2014 die höchste Priorität im Rahmen einer digitalen Strategie. Das ist das zentrale Ergebnis der Umfrage “Digital Trends in 2014″ des CMS-Herstellers Ektron, bei der 400 Website- und Marketing-Experten sowie IT-Fachleute Fragen zu den Zielen ihrer Online-Strategie beantwortet haben.
Während die Trends der vergangenen Jahre stark auf die Entwicklungen bei den mobilen Endgeräten einzahlten, liegt  der Fokus jetzt auf der Herstellung von Content. Mit 76% der Nennungen liegt Content Creation deutlich vor der Landing Page Optimierung (58%) und SEO (50%).
Die Herausforderung ist dabei unterschiedliche Inhalte für unterschiedliche Kunden zu produzieren: Auf der To-do-Liste stehen Personalisierung und Targeting bei den Befragten ganz oben! Mich würde sehr interessieren, welche Ansatzpunkte die Teilnehmer hierfür haben – aber das wurde leider nicht gefragt.

Roboterjournalismus: Denken, Wissen, Rechnen, Schreiben

Die Mensch-Maschinen-Debatte hat das Feld des Journalismus erreicht. Was mich an dieser Auseinandersetzung am meisten interessiert, ist die Darstellung der Alleinstellungsmerkmale des menschlichen Journalisten. Welche Eigenschaften werden ihm zugeschrieben? Was kann er besser als die Software?  In dem Post “Roboterjournalismus – Wo sind seine Grenzen?” bin ich darauf eingegangen, dass die Software nicht investigativ oder quellenkritisch arbeiten kann, ihr der Zugang zum Weltwissen und das Talent für Tragödien fehlt.

Menschen denken wie Menschen

Will Oremus hat in seinem sehr lesenwerten Artikel bei Slate.com seine Sicht auf den Robotjournalismus dargestellt. Worin sind Menschen den Maschinen überlegen? Seine Grundannahme ist nur scheinbar banal: Menschen sind jetzt bereits besser darin zu denken wie ein Mensch als es einem Computer jemals gelingen wird.
Entscheidend für Oremus sind diese Fähigkeiten des Journalisten: Sie können gut Geschichten erzählen, Anekdoten herauspicken und Analogien und Verbindungen zwischen Informationen herausarbeiten. Sie können vor allem aus einer unförmigen Wolke von Informationen und Daten rund um ein Ereignis zum einen leicht vertraute Muster erkennen und zum anderen zielsicher und intuitiv die Punkte herausziehen, was andere Menschen interessiert. In keinem dieser Punkte sind Algorithmen sonderlich gut.

Computer können besser rechnen

Eine Software kann hingegen schnell große Datensätze scannen und Muster identifizieren. Gerade bei der Auswertung von Daten “übersehen” sie keine Muster und erfassen schnell die Schlüsseldaten einer Datenbank.  Der Fokus liegt auf “schell” und “groß”.Wenn die Text-Maschine einmal gebaut ist, sinken die Kosten für einen Artikel gegen Null.

Die “Prosa” der Maschinen – Gutes Schreiben kann die Software lernen

Und was ist mit der unbeschreiblichen Fähigkeit des Menschen einer Geschichte einen besonderen Ton zu verleihen? Das wird sehr häufig als Alleinstellungsmerkmal des menschlichen Autors hervorgehoben. Hier schätzt Oremus die Möglichkeiten der Maschine so ein, wie wir es bei AX Semantics tun: Gut Schreiben kann die Software lernen. Mit dem richtigen Briefing und der richtigen Programmierung können Sprache und Stil der generierten Texte ziemlich genau an die Anforderungen angepasst werden. Es sind keine “blechern” klingenden Roboter-Texte, die aus dem Computer kommen.

Datenqualität ist entscheidend

Will Oremus hat genau hingeschaut bei seiner Recherche zum Thema Roboterjournalismus, denn er trifft die “Schwachstelle” des Roboterjournalisten genau: Das Problem bei dem Wettbewerb zwischen Mensch und Maschine ist nicht die Qualität der automatisch generierten Texte, entscheidend ist vielmehr die Qualität der Daten.
Das umfasst meiner Meinung nach zwei unterschiedliche Bereiche: Zum einen muss die Datenbasis für die Texte stimmen. “Making data talk – 6 tips on how to make your data fit for linguistic applications” zeigt, worauf es hier ankommt.
Zum anderen sind in vielen Fällen die Daten nicht ausreichend – und hier sind wir wieder beim Weltwissen und der Datenknappheit. Die Software kann sehr viele Regeln lernen und damit Texte korrekt und relativ abwechslungsreich gestalten.

Schon ein Gewitter kann die Software herausfordern

Aber wenn ein Mensch beispielsweise ein Fußballspiel sieht bei dem ein starkes Gewitter losbricht, kann er das Ereignis in der Regel leicht einordnen und beim Schreiben seines Textes berücksichtigen. Die Relevanz und das Leserinteresse zu bestimmen, fällt einem menschlichen Autor für solche Vorkommnisse eher leicht.
Um einen Computer dazu zu bringen, dass er einen solchen Vorfall bewertet und entscheidet, ob und wie er das in seinen Text aufnimmt, muss er erst einmal an einer Datenbank angeschlossen sein, die Wetterdaten liefert. Dazu braucht die Software eine breite Daten- und Berechunungsgrundlage wann und wie etwa Wetterereignisse bei einem Fußballspiel ein Rolle spielen. Ein solches Detail ist programmierbar – keine Frage. Allerdings ist noch zu diskutieren, ob ein Computer jemals so viele Daten zur Verfügung hat und verarbeitet, dass seine Ergebnisse mit den allgemeinen, menschlichen Fähigkeiten konkurrieren können.

Leseverhalten am Bildschirm – Gibt es etwas Neues? (2) iPads, Tablets & Smartphones

Das Leseverhalten hängt nicht nur – wie in “Leseverhalten am Bildschirm…(1)” beschrieben – vom Gegensatz Papier Bildschirm ab, sondern auch von den Endgeräten. Die meisten von uns lesen nicht nur am Computer-Bildschirm, vielmehr sind eine Reihe mobiler Geräte hinzu gekommen, die darauf einen Einfluss haben, wie wir lesen.

Gibt es ein charakteristisches Leseverhalten bei iPads und Tablets?

Hier die bemerkenswertesten Ergebnisse der neuesten Studien zum Leseverhalten (hier ein umfassendes Verzeichnis der Studien zu Tablets und Smartphones)

Poynter Eyetrack Studie: Unterschiede zwischen Digital Natives und älteren Usern

Eine Poynter Eyetrack Studie hat bereits 2007 interessante Aufschlüsse über das Leseverhalten bei Online- und Printemedien gegeben – jetzt wurde ein ähnlicher Ansatz zur Analyse des Userverhaltens auf Tablets umgesetzt. Sie haben 36 Menschen genauestens dabei beobachtet, wie diese auf iPads mit Nachrichtenartikeln umgingen. Etwa eine Hälfte davon gehörte zu den “Digital Natives” (waren also zwischen 18 und 28 Jahre alt), die andere Gruppe war eindeutig älter (45-55 Jahre alt), damit auch Unterschiede zwischen den beiden Gruppen herausgearbeitet werden konnten.

Leser suchen Artikel sorgfältig aus – und bleiben nur für kurze Zeit bei der Story

Start der Analyse war ein Magazin, woraus sich die Leser aus unterschiedlichen Artikelteasern (Bilder und Texte) eine Geschichte aussuchen sollten. Interessant war, dass die Leser über ein dominantes Element in die Gesichte einstiegen, wie etwa ein Foto mit einem Gesicht. Sie fixierten aber durchschnittlich 18 Elemente, bevor sie eine Entscheidung fällten. Der Auswahlprozess ist wichtig für das Durchhaltevermögen: Diejenigen, die den Artikel nicht zu Ende lasen, haben nur neun Mal über den Schirm geschaut.

100 Sekunden ist die magische Grenze

Im Schnitt verbrachten die User 98 Sekunden bei dem Artikel, den sie ausgesucht haben. Diejenigen, die die Geschichte nicht zu Ende lesen, verlassen sie nach etwa 78 Sekunden. Es ist also gut, dem Leser eine Marke zu setzen (visuelles Element), wenn die Geschichte etwa halb um ist.

Wie gelesen wird, hängt stark damit zusammen, welche Erfahrungen und Hintergründe die User haben.

  • 52% Scannen (schauen sie die Überschrift, Listen und andere Gliederungselement an, Lesen nur Teile der Geschichte und kehren, wenn sie sich was anschauen, nicht zum Lesepunkt zurück).
  • 48% lesen methodisch (also im herkömmlichen Sinn, Sie lesen den Text hintereinander und selbst, wenn sie woanders hinschauen, kehren sie zum Punkt zurück).
  • Verteilung: Digital Natives: 75% scannen, 25% lesen. Die Printgewohnten (zwischen 45 und 55 Jahren) bevorzugen eindeutig das methodische Lesen (76%), nur 24% scannen.

iPads und Smartphones Wörter im Fokus

Eine interssante Beobachtung ist auch, die taktile Interaktion mit dem IPad: 61% berühren den Bildschirm regelmäßig (lesen z.B. ein bis zwei Zeilen, dann wischen sie über den Bildschirm um die nächsten Zeilen besser ins Blickfeld zu rücken). Die User ziehen sich die Bereiche, die sie interessieren mit den Fingern in ihr Blickfeld und zoomen in die Artikel hinein. Diese wechselnden Perspektiven sind neu und es ist noch offen, wie man das Verhalten bei der Konzeption neuer Artikel berücksichtigen kann.

Fließende Wörter  – neue Lösungen für Smartphones

Aber es gibt nicht nur Änderungen beim User – es gibt auch Ansätze das Lesen am Smartphone noch weiter zu beschleunigen. Das Unternehmen “Spritz” bietet eine App an, bei der man nicht mehr den kompletten Text sieht, sondern nur noch einzelne Wörter. Scannen und Skimmen kann man so nicht mehr – aber dafür schnell lesen…

 

Spritz

(Quelle: Screenshot http://www.spritzinc.com/)

 

 

 

 

 

 

 

clunc – Themenideen für die Konferenz

Der 11. Juli rückt immer näher und damit der Starttag von clunc – der Computerlinguistik-Unkonferenz. Und wie sich das für ein Barcamp gehört schlagen die Teilnehmer selbst Themen vor und tragen als Sprecher zum Erfolg der Unkonferenz bei. Ich habe mir ein paar Gedanken gemacht…

ganzen Artikel lesen

clunc – die ComputerLinguistik-UNConference

clunc – das BarCamp für und über Computerlinguistik geht an den Start. Die Bedeutung der Computerlinguistik für unsere Welt ist unbestritten und mit den aktuellen Meldungen um den Roboterjournalismus wie beispielsweise in der Welt oder der Wirtschaftswoche ist ein weiterer Höhepunkt erreicht.

ganzen Artikel lesen

Datenknappheit und Natural Language Generation

Datenknappheit im Zeitalter von “Big Data”? Kann es das geben, wo doch alles in riesigen Datenmengen zu ertrinken scheint und man hofft, von klugen Programmen die Aussagen aus den Daten gefiltert zu bekommen?

Aber gerade die Datenknappheit ist eines der größten Probleme im Umgang mit großen Datenmengen, die die New York Times anführt: Im Bereich von Text haben viele Robots wie etwa Suchmaschinen oder Übersetzungprogramme Schwierigkeiten genügend passendes Datenmaterial zu finden. Auch im Bereich der Computerlinguistik ist diese Knappheit natürlichsprachlicher Daten ein viel diskutiertes Kernthema. Entscheidende ist die Frage: Wie kann man ihr begegnen?

Natural Language Generation braucht riesige Mengen an Sprachmaterial

Sowohl beim Parsing von (Text-)Korpora, als auch bei der NLG (Natural Language Generation) spielen “ungesehene Textereignisse” (engl. “unseen events”) immer wieder eine Rolle – vor allem bei der Beschreibung der Grenzen maschineller Verarbeitung von Text. Bisherige Text-Generierungs-Maschinen können Text im und aus dem Web nur aufarbeiten oder erkennen, sofern sie bekannte Muster einer Textsorte oder eines Stils bereits erlernt haben.

Das ist vor allem problematisch bei Textmaschinen, die mit N-Gramm-Methodiken arbeiten, da die Kompositionalität von Sprache und die synchrone Sprachentwicklung unentwegt fortschreiten. Neues Sprachmaterial wird dabei zur Herausforderung. Kürzlich hat Google seine umfangreiche Statistik zu Grammatik und Nachbarschaft von Wörtern öffentlich zur Verfügung gestellt: Ein riesiger Datenschatz in unzähligen Sprachen. Diese Veröffentlichung ist nicht ganz uneigennützig, denn auch bei Google hat man Interesse an der Weiterentwicklung der statistischen Sprachmodelle (language models) und hofft auf Unterstützung von anderen Forschern.

Textgenerierung: Zwischen Kreativität und Algorithmus  

Insgesamt leiten sich für die Zukunft der maschinellen Texterstellung zwei Hauptziele für die (wissenschaftliche und industrielle) Anwendung ab: Neben der Entwicklung von geeigneten Modellen zur Abbildung von Sprache und der Interpretation von Daten wird es auch darauf ankommen, Sprache automatisiert kreativ verwenden zu können. Den scheinbaren Widerspruch zwischen den Extremen “Kreativität” und “Algorithmus” aufzulösen, wird daher einen historischen Wendepunkt in der Generierung von Texten bedeuten.

Welt mit Mobile Update – verbesserte Lesbarkeit

Die mobilen Webseiten von Tageszeitungen habe ich in Text-Gold.de bereits die Lesbarkeit untersucht. Heute morgen beim Lesen sind mir die neuen Layouts der Welt aufgefallen.

ganzen Artikel lesen

Leseverhalten am Bildschirm – Gibt es etwas Neues? (1)

Das T-Shirt können alle Internet-Surfer tragen, denn es zeigt den  Kernsatz für das Leserverhalten am Bildschirm: User lesen keine langen Texte.  Das galt seit Erfindung des Computers – aber hat  sich bis heute etwas verändert? Vor zwei Jahren gab es Hinweise, dass das Lesen am Tablet und Kindle etwas störungsfreier verläuft als am normalen Computerbildschirm.

Neue User-Generation bevorzugt den Bildschirm

Und tatsächlich scheint sich ein Generationenwechsel anzubahnen: Die Ergebnisse einer Studie  in Großbritannien, bei denen fast 35 000 acht bis 16-jährige teilnahmen, zeigen, dass die junge Generation lieber am Bildschirm liest als Gedrucktes. 52% zogen den Bildschirm vor, 32% lieber gedruckte Texte, der Rest war unentschieden. Die Vorliebe ergibt sich aus dem Alltag der Kinder: 39% lesen täglich am Computer und nur 28% lesen täglich gedruckte Texte. Ein anderes Ergebnis der Studie bringt mich zum ersten Posts dieses Blogs zurück: Die neue Mode aus Japan, Romane auf dem Handy zu lesen,  konnte ich nur mit den Unterschieden in den Schriftzeichen erklären. Heute gaben  23%  der Kinder an, Romane auf dem Handy zu lesen!

Kleine Bildschirme ermüden Augen stärker – E-Ink und Gedrucktes sind schonender

Man starrt auf den Bildschirm und blinzelt weniger häufig – was schneller zur Ermüdung der Augen führt. Das ist schon länger bekannt. Allerdings zeigen sich deutliche Unterschiede  zwischen normalen Bildschirmen und e-Ink-Geräten. Beim Lesen auf dem Kindle und auf Papier blinzelten die Leser etwa gleich häufig, während beim Bildschirm-Lesen die Blinzfrequenz wesentlich geringer ist, wie eine Vergleichsstudie zeigt. Und am anstrengendsten ist es, auf dem Smartphone zu lesen. Hier kommt dazu, dass die Smartphones so nah ans Gesicht gehalten werden, dass die Ermüdung noch schneller eintritt.  Alles keine guten Voraussetzungen, um sich auf die Inhalte zu konzentrieren.

(Fortsetzung folgt)

 

Roboterjournalismus – Wo sind seine Grenzen?

“Leser können automatisch erstellten Content nicht von Content unterscheiden, der von einem Menschen geschrieben ist”.  So formuliert  Christer Clerwall  ein wichtiges Ergebnis seiner  kleinen Studie zur Bewertung automatisiert erstellter Texte.

Die Robot-Grundsatzdebatte: Was können Menschen, das Roboter nie können werden?

Mit diesem Resultat hätte die Software, die den Text geschrieben hat eine Art “Lese”-Turing Test bestanden. Der britische Informatiker Alan Turing hatte den Test in der Mitte des vergangen Jahrhunderts entwickelt,  um festzustellen, ob eine Maschine ein dem Menschen gleichwertiges Denkvermögen hat. Der Test besteht in einem per Tastatur und Bildschirm geführten Dialog – der Proband muss entscheiden, ob hinter den Antworten eine Maschine oder ein Mensch steckt. Und schon sind wir drin in der Science Fiction-Roboterwelt und in der Grundsatzdebatte, die schon lange geführt wird und immer wieder interessant ist: Wo sind die Grenzen der Maschinen? Was können die Roboter nicht? ganzen Artikel lesen