Neue KI löscht Beleidigungen nicht, sondern tauscht diese aus

Researcher des Technologiekonzerns IBM haben einen neuen Algorithmus entwickelt, der anstößige Sprache auf Websites wie Reddit und Twitter überwachen kann. Anstatt beleidigende Phrasen direkt zu entfernen, schlägt der Algorithmus alternative, höflichere Formulierungen vor, die an ihrer Stelle verwendet werden können.

Tool-Missbrauch verhindern

Die Forscher haben rund zehn Mio. Tweets und Reddit-Beiträge gesammelt und entweder als anstößig oder nicht anstößig eingestuft. Die IBM-Researcher entschieden sich für die Methode des Tausches, anstatt Beleidigungen vollständig zu ersetzen, um autoritäre Regierungen oder Unternehmen daran zu hindern, das Werkzeug zu missbrauchen. Der Algorithmus würde sich insbesondere dafür eignen, kritische oder politische Kommentare zu unterdrücken. Diesen Missbrauch wollten die Forscher von Anfang an umgehen.

Das große Ziel mit dem neuen Algorithmus war es, die Verbreitung von Hassreden auf populären Social-Media-Plattformen wie Twitter, Reddit und Facebook zu reduzieren.

„Die Verwendung beleidigender Phrasen ist ein häufiges Problem des Missbrauchsverhaltens in sozialen Online-Netzwerken“,

erklären die Forscher.

„In der Vergangenheit haben verschiedene Ansätze dieses Problem lösen wollen, indem verschiedene maschinelle Lernmodelle zur Erkennung von missbräuchlichem Verhalten eingesetzt wurden. Die meisten dieser Projekte folgen jedoch der Annahme, dass es ausreicht, den gesamten offensiven Post herauszufiltern.“

Erneute Analyse nach Korrektur

„Ein Benutzer, der Online-Inhalte konsumiert, möchte jedoch möglicherweise keine vollständig ausgefilterten Nachrichten erleben, sondern stattdessen in einem Stil lesen, der nicht beleidigend und trotzdem in einem höflichen Ton zu verstehen ist“,

resümieren die Researcher. Der neue Algorithmus analysiert eingangs die Bedeutung eines Satzes und ob er beleidigende Sprache enthält. Sobald der Text als beleidigend bestätigt wird, generiert der Algorithmus eine weniger anstößige Phrase. Im dritten Schritt wird automatisch analysiert, ob sich der neue Satz im Ton geändert hat. Beinahe in allen Fällen konnte der Algorithmus „zuverlässige, nicht offensive Sätze“ erzeugen.

Die IBM-Forscher betonen jedoch, dass der Algorithmus bislang ein paar Beschränkungen unterliegt, wie zum Beispiel der Tatsache, dass die zu analysierenden Sätze grundlegend Schimpfwörter enthalten müssen.

Aus diesem Grund sei das System wahrscheinlich im Moment noch weniger erfolgreich darin, Hassreden zuverlässig zu identifizieren. Ein sarkastischer Unterton und andere Stilmittel entgehen dem Algorithmus bislang.

Unterstütze jetzt Mimikama – Für Wahrheit und Demokratie! Gründlicher Recherchen und das Bekämpfen von Falschinformationen sind heute wichtiger für unsere Demokratie als jemals zuvor. Unsere Inhalte sind frei zugänglich, weil jeder das Recht auf verlässliche Informationen hat. Unterstützen Sie Mimikama

Mehr von Mimikama

Hinweise: 1) Dieser Inhalt gibt den Stand der Dinge wieder, der zum Zeitpunkt der Veröffentlichung aktuell war. Die Wiedergabe einzelner Bilder, Screenshots, Einbettungen oder Videosequenzen dient zur Auseinandersetzung der Sache mit dem Thema.
2) Einzelne Beiträge entstanden durch den Einsatz von maschineller Hilfe und wurde vor der Publikation gewissenhaft von der Mimikama-Redaktion kontrolliert. (Begründung)