CLIENT
Die Furche
SECTOR
Medien
SCOPE
CMS · Semantik · NLP
SINCE
2018

Die Digitalisierung eines semantischen Medienarchivs

Den Schatz eines Archivs heben - der Navigator als digitale Zeitreise.

strg.at:~$init --driven-by-humans --supported-by-ai

www.furche.at basiert auf einem neuen Publishing-Konzept und der Idee, den Schatz der Furche, dieses unendlich spannende Archiv seit 1945, zu heben. Gemeinsam haben wir ein neues Konzept für digitales Lesen entwickelt und die semantische Verortung von über 150.000 historischen Artikeln zu einer Navigations-Erfahrung verdichtet.

150k+
Archiv-Artikel digitalisiert
1945
Gegründet — bis heute online
BERT
semantische Verortung
Navigator
Zeitreise unter jedem Artikel

Über das Medium

Eine Wochenzeitung mit Auftrag

Die Furche wurde als Wochenzeitung 1945 gegründet. Ihre Aufgabe war es, mit hochqualitativem Content den Antisemitismus in der christlichen Community in Österreich aufzuarbeiten. Die Furche war zu Beginn ein Projekt der katholischen Kirche, das gemeinsam mit der amerikanischen Armee aufgebaut und mitfinanziert wurde. Um dieses Ziel erreichen zu können, wurde von Anfang an größter Wert auf die Qualität der Inhalte gelegt.

  1. Icon — Die Herausforderung01

    Die Herausforderung

    Ein Archiv seit 1945 mit über 150.000 Artikeln — verstaubt im Druck, kaum auffindbar und digital ungehoben.

  2. Icon — Der Ansatz02

    Der Ansatz

    Das gesamte Archiv per OCR lesbar gemacht, mit BERT semantisch verortet und über STRG.behave zu einer Navigator-Timeline verdichtet.

  3. Icon — Das Ergebnis03

    Das Ergebnis

    Der Furche-Navigator — eine Zeitreise unter jedem Artikel. Das Archiv wird vom Such- zum Empfehlungssystem; die Geschichte des Mediums lebt.

Die grundlegende Idee

Digitale Transformation heißt: Neues entdecken.

Die Aufgabe lag darin, der Furche ein neues Konzept für digitales Lesen zu erarbeiten. Im Zuge der Konzeptionsarbeit haben wir nach Möglichkeiten gesucht, eine echte digitale Transformation des Mediums zu erreichen. Digitale Transformation bedeutet für uns etwas anderes, als Dinge einfach mit einem Computer zu erledigen. Digitale Transformation steht dafür, neue Möglichkeiten zu entdecken, die erst durch digitale Arbeitsweisen ermöglicht werden.

Dass eines der wichtigsten Assets der Furche ihr Archiv ist, lag auf der Hand. In vielen Gesprächen mit Redaktion und Geschäftsführung haben wir überlegt, was sich damit machen lässt. Um den Wert spüren zu können, hat sich unser Management tatsächlich und persönlich in die Wiener Nationalbibliothek gesetzt und alte Ausgaben gelesen. Wunderbare Artikel — veröffentlicht bereits in den 40er und 50er Jahren des letzten Jahrhunderts. Und all diese Inhalte verstaubten in den gedruckten Ausgaben an zwei Orten: in der Furche selbst und in der Nationalbibliothek. Es gibt sicher private Sammlungen, aber dazu hatten wir keinen Zugriff.

Die eingesetzte Technologie

STRG.behave: Bedeutung statt Keywords

Technologisch wurde das Projekt mit den Forschungsergebnissen aus unserem Projekt STRG.behave umgesetzt — und wird damit bis heute betrieben. STRG.behave vermisst und vektorisiert jeden neuen Artikel und erstellt eine dynamische Timeline aus Archiv-Artikeln, die zu diesem Inhalt passen. Die Redaktion hat ein Interface, in dem sie Artikel auch manuell hinzufügen oder exkludieren kann. Wir raten von Eingriffen in die semantische Logik jedoch ab, da menschliche Eingriffe im selbstlernenden System sehr hoch priorisiert werden und die Ergebnisse stark verändern. Die Timeline wird durch ein neuronales Netz erstellt. Das gesamte System läuft in der Google Cloud.

STRG.behave entstand aus einem Forschungsprojekt, in dem wir überlegten, welche Möglichkeiten Medien haben, um reale Interessen ihrer User:innen zu erheben, ohne auf 3rd-Party-Anbieter zurückgreifen zu müssen. Dahinter steht die Idee, dass die meisten dieser Daten von extrem schlechter Qualität sind und in der Regel überhaupt keinen Sinn ergeben. Kein noch so gutes neuronales Netz kann etwas schön rechnen. Um das zu ermöglichen, mussten wir semantische Analysen implementieren, die weit über das Finden von Keywords hinausgehen — Sentimente analysieren und die wirkliche Bedeutung von langen Stories errechnen.

Mehr über STRG.behave erfahren

Technologie-Details

BERT, Cosinus-Ähnlichkeit, evolutionäre Algorithmen

2018, als wir das Projekt entwickelten, haben wir BERT als Algorithmus eingesetzt. Die Nähe zwischen Inhalten wurde über Kosinus-Ähnlichkeiten (cosine similarity) errechnet, bei der Inhalte als Vektoren in mehrdimensionalen mathematischen Räumen dargestellt werden. Wir setzen diese Technologie auch für Recommendations ein. Hier ist die Herausforderung jedoch, dass wir eine Mischung von semantischer Ähnlichkeit und einer Anpassung an die Interessen der User:innen brauchen. Diese Überlegungen führten dazu, dass wir uns intensiv mit den Prinzipien der Verhaltensökonomie beschäftigten. Letztlich haben wir eine Reihe dieser Prinzipien in evolutionären Algorithmen abgebildet — um STRG.behave möglich zu machen.

Als Basis-Technologie dient für die Furche unser semantisches System STRG.cms. Hier werden die Inhalte erstellt und gepflegt. Durch die semantische Verortung und den Einsatz von STRG.behave ist die Redaktion in der Lage, automatisiert Dossiers zu erstellen und so zu bestimmten Themenbereichen eine historisch fundierte Berichterstattung sicherzustellen.

Furche Artikel — Von Spuren getragen

Das Ergebnis

Der FURCHE-Navigator

Als Ergebnis erhalten wir zu jedem Artikel eine Timeline, in der man bis zur Gründung der Furche 1945 zurückreisen kann. Das macht sichtbar, wie sich Begriffe wie „Terror“, „Bildung“ oder „künstliche Intelligenz“ im Laufe der Zeit in ihrer Bedeutung verändert haben — und wie sie sich entwickeln. Liest man etwa einen Beitrag über die Herausforderungen in der Bildung durch generative KI und scrollt in der Timeline zurück in die 60er und 70er Jahre, landet man bei den Diskussionen rund um die aufkommenden Taschenrechner im Klassenzimmer. Man findet aber auch Inhalt über die berühmte Dartmouth Summer of Artificial Intelligence Konferenz von 1956.

Beispielartikel im Furche-Navigator

Wirkung

Was die Verortung bewegt

150k+

Artikel verortet

Das Furche-Archiv seit 1945, semantisch erschlossen.

1945

Archiv-Tiefe

Zeitreise bis zur Gründung unter jedem Artikel.

BERT

Semantik statt Keywords

2018 adaptiert für den gesellschaftlichen Diskurs.

Push

statt Pull

Das Archiv wird vom Such- zum Empfehlungssystem.

Ziele & Wirkung

Wir haben unsere Ziele mit diesem Projekt erreicht.

Über 100.000 Artikel aus der Gründungszeit der Zeitung wurden digitalisiert und semantisch analysiert. Es ist ein völlig neuer Zugang zu Archiven entstanden — weit weg davon, Menschen dazu zu bewegen, in langweiligen Sucheingaben nach Begriffen suchen zu müssen. Ein Archiv wird damit von einem Pull- zu einem Push-System. Die Historie des Mediums lebt, und die Leser:innen der Furche erleben einen Besuch sehr positiv.


Magazine

Mehr zu Semantik

Sprechen wir über Ihr Vorhaben

Möchten Sie Ihr Archiv lebendig machen?

Wir helfen Medienhäusern, Archivinhalte semantisch zu verorten, mit aktuellen Berichterstattungen zu verknüpfen und in produktive Reader-Experiences zu überführen.