Von Carolin Plas
Es waren rund 2,6 Terabyte Daten, die Investigativjournalist*innen 2016 durchforsteten, um verschleierte Geldströme zu und von internationalen Briefkastenfirmen aufzudecken. Doch sie agierten nicht allein: Eine Künstliche Intelligenz half ihnen, die Panama Papers zu knacken. Und den Journalismus seither gewaltig aufzurütteln.
Sie gelten als der journalistische Coup der vergangenen zehn Jahre: die Panama Papers. Und das nicht nur, weil sie bis dato verschleierte Geldströme aufzeigen konnten, sondern auch, weil es das erste Mal war, dass Journalist*innen und Künstliche Intelligenzen erfolgreich zusammenarbeiteten – und damit den Redaktionen weltweit neue Möglichkeiten eröffneten, Informationen zu finden, zu analysieren und zu veröffentlichen. Doch der Reihe nach: Es war das Jahr 2015 als eine anonyme Quelle den Journalist*innen der Süddeutschen Zeitung eine unfassbar große Menge an Daten zuspielte. Diese beinhalteten Informationen zu illegalen Geschäften der panamaischen Anwaltskanzlei Mossack Fonseca. Die Journalist*innen deckten das dunkle internationale Netzwerk, das sich hinter dem geschickten Handeln der Kanzlei verbarg, erfolgreich auf. 11,5 Millionen Dokumente konnten durch die einjährige Datenauswertung und Recherche, koordiniert vom Internationalen Consortium of Investigative Journalists (ICIJ), schlussendlich an die Öffentlichkeit gelangen. Die gigantische Menge an zugespielten Daten musste für die Journalist*innen erst nutzbar gemacht werden, um sie anschließend einer Auswertung unterziehen zu können. Hierfür nutzten die Rechercheure automatisierte Verfahren, genauer Open-Source-Technologien (Apache Sor, Apache Tika, Tesseract) und Graph Data Science (Neo4j).
Neo4j Graph Data Science ist eine leistungsstarke Softwareplattform für Journalist*innen, die es ermöglicht, Informationen auf einzigartige Art und Weise zu speichern, darzustellen und die Verbindung zwischen den verschiedenen Rechercheelementen klarer sichtbar zu machen. Sie hatte für die Recherchearbeiten den großen Vorteil, dass die Software eine hohe Flexibilität für individuelle Anpassungen und Erweiterungen ermöglichte. Das bedeutet, dass die Journalist*innen der Panama Papers die Software nach ihren eigenen Bedürfnissen anpassen und optimal in ihre Recherchearbeiten integrieren konnten. Bei der Durchführung der aufwendigen Recherchen haben die Technologien des maschinellen Lernens einen bedeutenden Beitrag geleistet, indem die Daten effizient organisiert, gefiltert und durchsuchbar gemacht wurden. Dennoch steht hinter dem Arbeitstitel Panama Papers die manuelle, zeitaufwändige und kopfzerbrechende Arbeit der 400 beteiligten Journalist*innen.
Erwartungshaltungen, Realitäten und die Schnittmenge
Dem Verständnis, wonach die Verwendung Künstlicher Intelligenz Technologien im investigativen Journalismus der recherchierenden Person die vollständige Arbeit abnimmt und aus einer großen Menge an Daten eine druckfertige Geschichte zaubert, widerspricht das Praxisbeispiel der Panama Papers. Tatsächlich waren es die Köpfe der 400 Journalist*innen, die eine Geschichte aus den 2,6 Terabyte an Datenmaterial formulierten und nicht die KI. „Was ich in Datensätzen suche, sind Narrative und Informationen. Ein Datensatz ist noch keine Geschichte, er ist ein Anreiz für weitere Recherchen. Aus einem Datensatz versuche ich eine Geschichte herauszuarbeiten“, sagt der österreichische Investigativ- und Wirtschaftsjournalist Michael Nikbakhsh.
Als eines von zwei österreichi[1]schen Mitgliedern des Internationalen Consortium of Investigative Journalists (ICIJ) Netzwerks war er maßgeblich an bedeutenden internationalen Ermittlungen beteiligt, darunter die bekannten Pandora Papers. In seinem kürzlich gestarteten Podcast Die Dunkelkammer gewährt er Einblicke in die Arbeitsabläufe und den Vorgangsprozess als Investigativjournalist im internationalen Newsroom des ICIJ und berichtet unabhängig über „kleine Affären und große Skandale“. Nikbakhsh fügt hinzu: „Meine Arbeit besteht darin, Informationen in Kontexte zu setzen und Verknüpfungen zu verstehen.“ Somit macht diese Technologie die Arbeit eines investigativ arbeitenden Journalisten vielleicht in bestimmten Situationen eine Spur leichter, die vollständige journalistische Arbeit kann die Künstliche Intelligenz aber nicht ersetzen. „Eine Künstliche Intelligenz kann dabei helfen ein Indikator für weitere Recherchen zu sein“, sagt der unabhängige Softwareprogrammierer und Investigativjournalist Christo Buschek. Er fokussiert sich in seiner Arbeit besonders auf die Entwicklung von Software und Methoden für datengestützte Recherchen. 2021 gewann er den renommierten Pulitzer-Preis für die Mithilfe bei den Recherchen zu Built to Last. Außerdem ist er Teil der interdisziplinären For[1]schungsgruppe Knowing Machines an der University of Southern California und University of New York. Buschek ergänzt: „Für mich ist das Ergebnis der KI ein Indikator für weitere Recherchen, um beispielsweise in einem riesigen Datensatz herauszufinden, wo ich anfange zu schauen.“ Künstliche Intelligenzen bekommen aber nur dann einen unterstützenden Charakter, wenn der Mensch, in diesem Fall eine journalistische Person, der KI einen Fokus gäbe, wonach sie suchen solle, sagt Buschek. Somit hilft maschinelles Lernen den Journalisten in Situationen, in denen sie wissen, wonach sie in den Datensätzen suchen wollen, es aber aufgrund der Größe des Datensatzes zu lange dauern würde oder zu schwierig wäre, diese zu finden. Die Überlappung zwischen den Erwartungshaltungen eines Investigativjournalisten bezüglich der Verwendung von KI und den tatsächlichen technischen Fähigkeiten dieser Technologie definiert die Menge an Möglichkeiten, in denen sie effektiv in den jeweiligen journalistischen Arbeitsprozess eingesetzt werden können.
Legitimes Misstrauen als Berufskrankheit
„Ehrlicherweise vertraue ich nur mir selbst“, sagt Nikbakhsh über die Zuhilfenahme von Künstlicher Intelligenz. Dieses Zitat kann sinnbildlich als Beschreibung für die investigativ journalistische Mentalität genommen werden und entspricht dem investigativ journalistischen Auftrag. Nämlich aufzudecken, aufzuklären und anzuzweifeln. „Wenn mir ein System eine Information ausspuckt, dann ist das immer noch eine Information, die ich überprüfen werde müssen“, erklärt er. „Sie hat darüber hinaus keinen Wert, außer dass sie da ist, aber veröffentlichbar ist sie nicht, nur weil mir das eine KI gesagt hat.“ Dabei gehe es gar nicht darum, dass er einer KI misstraue, sondern darum, „dass ich die Gewissheit haben muss, dass die Informationen valide sind.“ Die Frage nach der Validität wiederum beginne bereits beim Datensatz, „den ich sehe und ob dieser überhaupt echt ist oder aus gefälschten Daten besteht, die mir ein Geheimdienst untergejubelt hat“, erläutert der Investigativjournalist. „In solchen Situationen wird mir die KI auch nicht helfen können. Am Ende muss ich es gemacht haben, schließlich bin ich der Gatekeeper.“ Auch seitens der technischen Perspektive sprechen einige Punkte gegen die Vertrauenswürdigkeit der KI-Ergebnisse und für eine Legitimität des journalistischen Misstrauens. Laut dem Softwareprogrammierer Buschek, beginnen die Probleme der Gültigkeit der Daten bereits beim Datensatz, der für die Künstliche Intelligenz verwendet wird. Dieser besteht, vereinfacht gesagt, aus einem Haufen Daten, die weder kuratiert noch verifiziert wurden. Er unterstreicht, dass man den Resultaten von KIs daher eigentlich nicht vertrauen könne und es unzulänglich sei, mit solchen Ergebnissen journalistische Recherchen weiterzuführen.
Panama Papers von Austria?
Nun stellt sich aber die Frage: Weshalb war der Einsatz von KI Technologien bei den Panama Papers so erfolgreich? Die Antwort lautet: Zum einen arbeitetet das ICIJ-Netzwerk mit einer für sie bereits bekannten Graph Data Science. Dies ermöglichte den Journalist*innen bereits einen Vertrauensvorschuss in die Technologie und half einen konkreten Fokus zu finden, um die Daten aufschlüsseln und Beziehungen zwischen den Informationen herstellen zu können. Zum anderen sorgte die Anzahl der an den Recherchen beteiligten Personen für die notwendige Expertise und für die nötigen Mittel, sowohl in die Technologie Vertrauen zu haben als auch in die Resultate der Datenauswertungen. Schlussendlich ist der Erfolg der Implementierung von Künstlichen Intelligenzen in den investigativen Arbeitsprozess aber eine Ressourcenfrage, die in österreichischen Redaktionen aufgrund der dann entstehenden Kostenstellen in naher Zukunft auf Ablehnung stoßen wird.