Ein Forscherteam von fünf US-amerikanischen Universitäten hat es geschafft, mittels der Erfassung von Bewegungssensordaten eines Android-Smartphones Rückschlüsse auf persönliche Merkmale der Anruferin oder des Anrufers zu ziehen. Der EarSpy genannte „Seitenkanalangriff“ nutzt dafür den Nachhall oder genauer gesagt die Vibrationen, die durch Ohrlautsprecher verursacht werden. Damit wird es möglich, nicht nur das Geschlecht herauszuhören, sondern sogar die Identität der anrufenden Person, wenn persönliche Sprachmuster unterschieden werden.

Der EarSpy-Lauschangriff

Die Möglichkeit dieser Art von Lauschangriff war davor schon bei den leistungsstärkeren Lautsprechern untersucht worden. Die kleineren Ohrlautsprecher galten bisher als zu schwach, um genügend Vibrationen für so eine Abhöraktion zu erzeugen. Ein entsprechender Seitenkanalangriff galt daher als wenig praktikabel. Das hat sich mit der aktuellen Generation von Smartphone-Stereolautsprechern geändert, die eine viel bessere Klangqualität und stärkere Vibrationen erzeugen.

Diese modernen Geräte verwenden auch empfindlichere Bewegungssensoren und Gyroskope als ihre Vorgänger, so können auch kleinste Resonanzen aufgezeichnet werden, die von den Lautsprechern erzeugt werden. In ihrer aktuellen Studie verglichen die Forschenden ein OnePlus 3T von 2016 und ein OnePlus 7T von 2019. Diese Visualisierung der Messergebnisse (Spektrogramm) zeigt gut, was sich in 3 Jahren und beim Sprung von 4 Generationen getan hat: Es werden deutlich mehr analysierbare Daten produziert.

EarSpy Frequenzen: Vergleich von OnePlus 3T, OnePlus 7T, OnePlus 7T Lautsprecher
von links nach rechts: Ohrlautsprecher von OnePlus 3T, OnePlus 7T und Lautsprecher von OnePlus 7T. Quelle: arxiv.org

Aufbau des Experiments und Ergebnisse

Die Forschenden benutzten die Modelle OnePlus 7T und OnePlus 9 und verschiedene Sätze von vorab aufgezeichneten Audiodaten, die nur über die Ohrlautsprecher der beiden Geräte abgespielt wurden. Daten des Beschleunigungssensors wurden mit der Android-App Physics Toolbox Sensor Suite erfasst und anschließend mit MATLAB analysiert, um bestimmte Merkmale zu extrahieren und weiter zu untersuchen.

Ein Algorithmus für maschinelles Lernen (ML) war im Vorfeld mit frei verfügbaren Datensätzen trainiert worden. Dieser untersuchte nun die vom Forscherteam selbst produzierten Datensätze, um Sprachinhalte, Identität des Anrufers und Geschlecht zu erkennen. Beim Oneplus 9 mit Android 12 lag die Geschlechtserkennung bei 88,7 %, die sprechende Person konnte in durchschnittlich 73,6 % der Fälle identifiziert werden. Die Spracherkennung wurde mit gesprochenen Zahlen getestet, diese konnten zwischen 33,3 % und 41,6 % erlauscht werden. Beim älteren Oneplus 7T mit Android 11 waren die Ergebnisse insgesamt etwas schlechter.

Nochmals zum Vergleich: Bei einer früheren Studie (2022) mit der Spearphone-App hatten sich die Forschenden bereits die leistungsstärkeren Lautsprecher vorgenommen. Dabei konnte Geschlecht und Identität des Anrufers in 99 Prozent der Fälle erkannt werden, die Genauigkeit der Spracherkennung lag bei 80 %. Dass ein Missbrauch der Smartphone-Gyroskope zum Abhören prinzipiell möglich ist, hatten zwei Studien von 2011 und 2014 bereits demonstriert.

Erkenntnisse und Gegenmaßnahmen

Etwas, das die Wirksamkeit des EarSpy-Angriffs verringern könnte, ist die Lautstärke, die die Benutzer für ihre Ohrlautsprecher auswählen. Eine geringere Lautstärke könnte das Abhören über diesen Seitenkanal verhindern oder zumindest erschweren – und ist außerdem auch angenehmer für das Ohr. Bewegungen während der Benutzung und Vibrationen der Umgebung wirken sich auch auf die Genauigkeit der abgeleiteten Sprachdaten aus.

Die Anordnung der Hardwarekomponenten und der Grad der Schalldichtheit der zusammengesetzten Teile wirken sich auf die Ausbreitung des Lautsprechernachhalls im Gerät aus. Die Forschenden wünschen sich künftig von den Herstellern von Mobiltelefonen folgendes: Sie sollen dafür sorgen, dass der Schalldruck während des Telefonierens stabil bleibt und die Bewegungssensoren an einer Stelle angebracht werden, an der sie durch interne Vibrationen nicht oder nur minimal beeinträchtigt werden.

Und wie sieht beim Betriebssystem aus? Android 13 hat nun eine Beschränkung für das Sammeln von Sensordaten ohne Erlaubnis für Abtastdatenraten über 200 Hz eingeführt. Das verhindert zwar die Spracherkennung bei der Standardabtastrate (400 Hz – 500 Hz), wird der Angriff allerdings bei 200 Hz durchgeführt, sinkt dabei die Genauigkeit nur um etwa 10 %.

Zwei weitere Lösungsvorschläge laut golem.de: Ein Umstieg auf das alternative, Android-basierte Betriebssystem GrapheneOS, bei dem die Nutzer den Zugriff auf Sensoren manuell erlauben müssen. Oder radikaler: Die Verwendung eines Telefons, das keine verbauten Mikrofone mehr hat und das auf Sensoren verzichtet.


Quellen: arXiv, golem.de, bleepingcomputer.com, latesthackingnews.com

Mehr zum Thema: Android-Nutzer Vorsicht: Diese App spioniert euch aus!

Hinweise: 1) Dieser Inhalt gibt den Stand der Dinge wieder, der zum Zeitpunkt der Veröffentlichung aktuell war. Die Wiedergabe einzelner Bilder, Screenshots, Einbettungen oder Videosequenzen dient zur Auseinandersetzung der Sache mit dem Thema.
2) Einzelne Beiträge entstanden durch den Einsatz von maschineller Hilfe und wurde vor der Publikation gewissenhaft von der Mimikama-Redaktion kontrolliert. (Begründung)