Hilfreiches finnisch-schwedisches System enttarnt englische Maschinen-Tweets leicht! Um Twitter optimal für Big-Data-Analysen zu nutzen, wäre es günstig, die automatisierten Nachrichten von Bots selbstständig und sprachunabhängig zu filtern.

Skandinavische Forscher haben nun eine Anwendung entwickelt, die einen großen Schritt in Richtung eben dieses Ziels darstellt. Denn mit schwedischen und finnischen Daten trainiert, kann das System englische Tweets mit 98,2-prozentiger Genauigkeit als menschlich oder maschinell einstufen.

Daten-Säuberung

Für Forscher von Soziologen über Politologen bis hin zu Ökonomen, sind soziale Medien wie Twitter gewaltige Datenquellen. Ein Problem ist dabei aber, dass geschätzte 20 bis 25 Prozent der Tweets von Bots stammen und damit für die Forschung oft eigentlich störendes Rauschen sind. Die neue Anwendung verspricht nun die Möglichkeit, dieses Rauschen vergleichsweise effizient herauszufiltern. „Das verbessert die Datenqualität und zeichnet ein genaueres Bild der Realität“, sagt Mikko Laitinen, Englisch-Professor an der Universität Ostfinnland  .

Für die Entwicklung des Systems hat er mit Maschinenlern-Spezialisten der Linné-Universität zusammengearbeitet. Ein wesentliches Anliegen der Forscher war dabei, dass die Lösung nicht nur für Tweets in einer Sprache beurteilen kann, ob sie von echten Menschen oder Bots stammen, sondern möglichst sprachunabhängig funktioniert.

Das Team hat daher jeweils 5.000 finnische und schwedische Tweets genutzt, um die Lösung zu trainieren. Bei einem Satz von 5.000 englischen Tweets konnte die Anwendung dann tatsächlich mit sehr hoher Genauigkeit feststellen, was von einem Bot stammte und was nicht – obwohl sie dazu eher einfach auf bestimmte Metadaten setzt.

Mehrsprach-Training

Laitinen und seine Kollegen wollen nun testen, wie gut sich das System bei anderen Sprachkombinationen macht – etwa, wenn es mit Finnisch und Englisch trainiert wird und dann schwedische Tweets evaluieren soll.

Die Experten gehen auch davon aus, dass noch mehrsprachigere Trainingsdatensätze die Bot-Erkennung in einer unbekannten Sprache weiter verbessern. Das möchten die Forscher ebenfalls testen, zunächst mit zwei bis drei zusätzlichen Sprachen im Trainingsdatensatz.

Quelle:


Wenn dir dieser Beitrag gefallen hat und du die Bedeutung fundierter Informationen schätzt, werde Teil des exklusiven Mimikama Clubs! Unterstütze unsere Arbeit und hilf uns, Aufklärung zu fördern und Falschinformationen zu bekämpfen. Als Club-Mitglied erhältst du:

📬 Wöchentlichen Sonder-Newsletter: Erhalte exklusive Inhalte direkt in dein Postfach.
🎥 Exklusives Video* „Faktenchecker-Grundkurs“: Lerne von Andre Wolf, wie du Falschinformationen erkennst und bekämpfst.
📅 Frühzeitiger Zugriff auf tiefgehende Artikel und Faktenchecks: Sei immer einen Schritt voraus.
📄 Bonus-Artikel, nur für dich: Entdecke Inhalte, die du sonst nirgendwo findest.
📝 Teilnahme an Webinaren und Workshops: Sei live dabei oder sieh dir die Aufzeichnungen an.
✔️ Qualitativer Austausch: Diskutiere sicher in unserer Kommentarfunktion ohne Trolle und Bots.

Mach mit und werde Teil einer Community, die für Wahrheit und Klarheit steht. Gemeinsam können wir die Welt ein bisschen besser machen!

* In diesem besonderen Kurs vermittelt dir Andre Wolf, wie du Falschinformationen erkennst und effektiv bekämpfst. Nach Abschluss des Videos hast du die Möglichkeit, dich unserem Rechercheteam anzuschließen und aktiv an der Aufklärung mitzuwirken – eine Chance, die ausschließlich unseren Club-Mitgliedern vorbehalten ist!


Hinweise: 1) Dieser Inhalt gibt den Stand der Dinge wieder, der zum Zeitpunkt der Veröffentlichung aktuell war. Die Wiedergabe einzelner Bilder, Screenshots, Einbettungen oder Videosequenzen dient zur Auseinandersetzung der Sache mit dem Thema.
2) Einzelne Beiträge entstanden durch den Einsatz von maschineller Hilfe und wurde vor der Publikation gewissenhaft von der Mimikama-Redaktion kontrolliert. (Begründung)