Artikelbild: Shutterstock / Von Worawee Meepian
Artikelbild: Shutterstock / Von Worawee MeepianArtikelbild: Shutterstock / Von Worawee Meepian

Hilfreiches finnisch-schwedisches System enttarnt englische Maschinen-Tweets leicht! Um Twitter optimal für Big-Data-Analysen zu nutzen, wäre es günstig, die automatisierten Nachrichten von Bots selbstständig und sprachunabhängig zu filtern.

Skandinavische Forscher haben nun eine Anwendung entwickelt, die einen großen Schritt in Richtung eben dieses Ziels darstellt. Denn mit schwedischen und finnischen Daten trainiert, kann das System englische Tweets mit 98,2-prozentiger Genauigkeit als menschlich oder maschinell einstufen.

Daten-Säuberung

Für Forscher von Soziologen über Politologen bis hin zu Ökonomen, sind soziale Medien wie Twitter gewaltige Datenquellen. Ein Problem ist dabei aber, dass geschätzte 20 bis 25 Prozent der Tweets von Bots stammen und damit für die Forschung oft eigentlich störendes Rauschen sind. Die neue Anwendung verspricht nun die Möglichkeit, dieses Rauschen vergleichsweise effizient herauszufiltern. „Das verbessert die Datenqualität und zeichnet ein genaueres Bild der Realität“, sagt Mikko Laitinen, Englisch-Professor an der Universität Ostfinnland  .

Für die Entwicklung des Systems hat er mit Maschinenlern-Spezialisten der Linné-Universität zusammengearbeitet. Ein wesentliches Anliegen der Forscher war dabei, dass die Lösung nicht nur für Tweets in einer Sprache beurteilen kann, ob sie von echten Menschen oder Bots stammen, sondern möglichst sprachunabhängig funktioniert.

Das Team hat daher jeweils 5.000 finnische und schwedische Tweets genutzt, um die Lösung zu trainieren. Bei einem Satz von 5.000 englischen Tweets konnte die Anwendung dann tatsächlich mit sehr hoher Genauigkeit feststellen, was von einem Bot stammte und was nicht – obwohl sie dazu eher einfach auf bestimmte Metadaten setzt.

Mehrsprach-Training

Laitinen und seine Kollegen wollen nun testen, wie gut sich das System bei anderen Sprachkombinationen macht – etwa, wenn es mit Finnisch und Englisch trainiert wird und dann schwedische Tweets evaluieren soll.

Die Experten gehen auch davon aus, dass noch mehrsprachigere Trainingsdatensätze die Bot-Erkennung in einer unbekannten Sprache weiter verbessern. Das möchten die Forscher ebenfalls testen, zunächst mit zwei bis drei zusätzlichen Sprachen im Trainingsdatensatz.

Quelle:

Unterstützen

FAKE NEWS BEKÄMPFEN

Unterstützen Sie Mimikama, um gemeinsam gegen Fake News vorzugehen und die Demokratie zu stärken. Helfen Sie mit, Fake News zu stoppen!


Hinweise: 1) Dieser Inhalt gibt den Stand der Dinge wieder, der zum Zeitpunkt der Veröffentlichung aktuell war. Die Wiedergabe einzelner Bilder, Screenshots, Einbettungen oder Videosequenzen dient zur Auseinandersetzung der Sache mit dem Thema.
2) Einzelne Beiträge entstanden durch den Einsatz von maschineller Hilfe und wurde vor der Publikation gewissenhaft von der Mimikama-Redaktion kontrolliert. (Begründung)


Mit deiner Hilfe unterstützt du eine der wichtigsten unabhängigen Informationsquellen zum Thema Fake News und Verbraucherschutz im deutschsprachigen Raum

INSERT_STEADY_CHECKOUT_HERE

Mehr von Mimikama

Mimikama Workshops & Vorträge: Stark gegen Fake News!

Mit unseren Workshops erleben Sie ein Feuerwerk an Impulsen mit echtem Mehrwert in Medienkompetenz, lernen Fake News und deren Manipulation zu erkennen, schützen sich vor Falschmeldungen und deren Auswirkungen und fördern dabei einen informierten, kritischen und transparenten Umgang mit Informationen.