Sicherheitsrisiken in Audio-Apps sozialer Medien

Originalartikel von Federico Maggi, Senior Threat Researcher

Reine Audio-Apps in Social-Media wie ClubHouse, Riffr, Listen, Audlist und HearMeOut haben in den letzten Jahren das Interesse von immer mehr Benutzern geweckt. Auch diese Apps sind vor Sicherheitsrisiken nicht gefeit. Natürlich sind die Apps nicht an sich bösartig, die Bedrohungen kommen von Cyberkriminellen, die nach Möglichkeiten suchen, diese Plattformen auszunutzen. Zudem können die meisten der entsprechenden Bedrohungen automatisiert werden und damit einfacher und schneller verbreitet werden. Trend Micro hat einige der Apps analysiert und stellt in dem Whitepaper „Mind Your Voice: Security Risks and Recommendations for Audio-centric Social Media Platforms“ die Risiken dar und gibt Empfehlungen für deren Vermeidung. Das Stanford Internet Observatory (SIO) hat ebenfalls Forschung dazu veröffentlicht.

Die Untersuchung fand zwischen dem 8. und 11. Februar dieses Jahres statt. Die Anbieter wurden über die Erkenntnisse informiert. Unter Umständen haben inzwischen die App-Anbieter einige der in dem Dokument beschriebenen Probleme behoben oder sind dabei, dies zu tun. ClubHouse hat schnell auf die geäußerten Bedenken reagiert. Auch haben die Forscher unabhängig die Software-Tools, die für das angebliche „Abhören von ClubHouse“ verwendet wurden, erhalten und sie analysiert – ein Vorgang, der in der Presse hervorgehoben und von ClubHouse umgehend blockiert wurde.

Es sollte auch klar sein, dass es sich nicht um einen Sicherheitsverstoß gehandelt hatte. Ein Entwickler hatte eine gespiegelte Webseite erstellt, die es anderen ermöglichte, über das einzige Entwicklerkonto mitzuhören anstelle des persönlichen Kontos. Während dies sicherlich gegen die Nutzungsbedingungen verstößt, wurde keineswegs eine spezifische Sicherheitsschwäche ausgenutzt und die gespiegelte Website hatte nichts aufgezeichnet: Die Audiodaten wurden immer von den ClubHouse-Servern zum anfragenden Client gestreamt und liefen niemals über die Mirror-Website. Mit anderen Worten: Diese Website war nichts weiter als ein Client, der auf JavaScript und nicht auf iOS basierte. Obwohl diese Art von Dienstmissbrauch zum Teil erschwert werden kann, ist kein Webdienst oder soziales Netzwerk davor gefeit, da es keine technische Möglichkeit gibt, Missbräuche zuverlässig zu blockieren, ohne die Verfügbarkeit für legitime Benutzer zu beeinträchtigen.

Bild 1. Die Haupteile und Daten sowie deren Interaktionen untereinander in einem typischen audio-getriebenen Sozialen Netzwerk.

Vergleich der Risiken bei Anrufen und in Audio-Apps

Die Sicherheitsrisiken bei der Nutzung von Telefonen überschneiden sich mit denen von audiozentrischen Apps. Beide Kanäle können abgehört und illegal aufgezeichnet werden. Angriffe für beide lassen sich auch automatisieren, nur für Online-Plattformen vielleicht in größerem Umfang. Beide können für Erpressung missbraucht werden, und Betrug wird durch leicht verfügbare Deepfake-Tools erleichtert. Es gibt jedoch einige subtile Unterschiede.

Erstens geht es um die Anzahl der Personen, die an einem Anruf teilnehmen, und die entscheidend ist für den Umfang der Daten, die gestohlen werden, oder die falsche Informationen, die sie erhalten. Während Telefonanrufe nur eine kleine Gruppe auf einmal umfassen, können es bei Apps Tausende sein. Allein bei ClubHouse können bis zu 5000 Personen einem Raum beitreten – eine beträchtliche Zahl, selbst im Vergleich zu sozialen Netzwerken wie Facebook, die zwar online, aber nicht sprachgesteuert sind. Das bedeutet, dass einem Angreifer, der Informationen von den Gesprächsteilnehmern stehlen oder den Ruf eines Benutzers ruinieren will, Tausenden möglicher Opfer zur Verfügung stehen.

Auch die Art der potenziell gestohlenen Daten ist unterschiedlich. Bei Telefonanrufen kommt es darauf an, was die Empfänger preisgeben. In den meisten sprachzentrierten Apps können, je nachdem, wie die Benutzer ihre Konten konfigurieren, Daten wie Fotos, Telefonnummern, E-Mail-Adressen und andere persönlich identifizierbare Informationen (PII) von Angreifern, die ebenfalls Konten in diesen Apps haben, leicht abgegriffen werden.

Ein weiteres Problem ist die Imitation eines anderen Nutzers. Während Anrufer auch bei Telefonaten die Identität einer anderen Person annehmen können, wird die Glaubwürdigkeit einer solchen Fälschung in reinen Social Media Audio-Apps noch gesteigert, da böswillige Akteure gefälschte Profile mit dem Foto und den Informationen der verkörperten Person erstellen können.

Außerdem können sprachgesteuerte Apps, wie einige Online-Plattformen, verwendet werden, um verdeckte Kanäle für Command & Control (C&C) zu starten.

Sicherheitsrisiken bei reinen Audio-Plattformen

Zu den möglichen Angriffsarten auf Benutzer von audiozentrierten Social-Media-Apps gehören die folgenden (dazu finden Sie in dem technischen Briefing):

  1. Abfangen und Abhören von Netzwerkverkehr

Ein Angreifer kann herausfinden, wer mit wem spricht, indem er den Netzwerkverkehr analysiert und nach RTC-bezogenen Paketen durchsucht. Die folgenden Screenshots bezüglich der ClubHouse-App zeigen, wie ein Angreifer diesen Vorgang automatisieren und die RTC-Steuerpakete abfangen kann, um sensible Informationen über einen privaten Chat zu erhalten, der mit zwei Benutzern darin erstellt wurde.

Bild 2. Automatisieren der Netzwrkanalyse und RTC-Paketsuche

Laut der Antwort von ClubHouse an das Stanford Internet Observatory wird ClubHouse eine angemessene Verschlüsselung implementieren, um diese und ähnliche Angriffe zu verhindern.

  1. Benutzerimitation und Deepfake Voice

Ein böswilliger Benutzer könnte sich als eine öffentliche Person ausgeben und sie durch das Klonen ihrer Stimme Dinge sagen lassen, die die wahre Person nie sagen würde. Ein Angreifer könnte auch die Stimme klonen und ein gefälschtes Profil eines berühmten Traders erstellen, um so Benutzer dazu zu verleiten, einem Raum beizutreten, und eine bestimmte Finanzstrategie zu propagieren.

  1. Sprachaufnahmen

Wie in den Nutzungsbedingungen der meisten (wenn nicht sogar aller) Apps angegeben, sind die Inhalte der meisten sozialen Netzwerke, die nur über Audio verfügen, als flüchtig und „nur für Teilnehmer“ gedacht. Einige Angreifer können jedoch Aufnahmen machen, das Konto klonen, automatisch allen Kontakten des Kontos folgen, um es authentischer aussehen zu lassen, jedem anderen Raum beitreten und das Sprachmuster verwenden, um die geklonte Stimme Sätze sagen zu lassen, die den Ruf des ursprünglichen Sprechers beschädigen und vielleicht sogar betrügerische Geschäftsabschlüsse ermöglichen.

  1. Bedrohung und Erpressung

Die Durchführung dieser Taten hängt von der Struktur der App und des Netzwerks ab. Auf einigen Plattformen wird beispielsweise ein Angreifer, der seinem Opfer folgt, benachrichtigt, wenn dieses einem öffentlichen Raum beitritt. Daraufhin könnte er ebenfalls beitreten, um Sprecherlaubnis anfragen und etwas sagen oder vorab aufgezeichnete Audiodaten streamen, um das Opfer zu erpressen. Die Forscher stellten fest, dass all dies leicht mit Skripts  automatisiert werden kann. Doch die meisten Apps verfügen über Funktionen zum Blockieren und Melden missbräuchlicher Benutzer.

  1. Untergrund-Services

Gleich nach dem Start fanden im Web aktive Diskussionen über ClubHouse statt. Einige Nutzer diskutieren bereits über den Kauf von Followern, wobei einige vorgebliche Entwickler ein Reverse Engineering der API versprachen, um einen Bot im Austausch für eine Einladung zu erstellen – ebenfalls als machbar verifiziert.

Bild 3. Forum-Nutzer unterhalten sich über das Erstellen und/oder den Kauf eines Bot-Service für Marketingzwecke

  1. Verdeckte Audiokanäle

Mithilfe dieser Plattformen können Bedrohungsakteure verdeckte Kanäle für C&C oder das Verstecken oder Übertragen von Informationen mithilfe von Steganografie erstellen. Gewinnen audiozentrierte soziale Netzwerke weiter an Popularität, könnten Angreifer sie als zuverlässigen alternativen Kanal betrachten: Ein Angreifer kann z. B. mehrere Räume erstellen und Bots dazu veranlassen, ihnen beizutreten, um Befehle zu versenden ohne Spuren zu hinterlassen (außer in den verschlüsselten Aufnahmen, falls vorhanden)

Sicherheitsempfehlungen

Um die Sicherheit von audiozentrierten Apps zu gewährleisten, sollten folgende Best Practices befolgt werden:

  • Betreten Sie öffentliche Räume und sprechen Sie wie in der Öffentlichkeit. Benutzer sollten nur Dinge sagen, die sie mit der Öffentlichkeit teilen möchten, da die Möglichkeit besteht, dass jemand im virtuellen Raum aufnimmt (auch wenn Aufnahmen ohne schriftliche Zustimmung gegen die Nutzungsbedingungen der meisten, wenn nicht all dieser Apps verstoßen).
  • Vertrauen Sie keinem nur aufgrund seines Namens. Die Apps verfügen derzeit über keine Prozesse zur Kontoverifizierung. Überprüfen Sie immer, ob die Biografie, der Benutzername und die verknüpften Kontakte in sozialen Medien echt sind.
  • Gewähren Sie nur die notwendigen Berechtigungen und geben Sie nur die benötigten Daten frei. Wenn Benutzer beispielsweise nicht möchten, dass die Apps alle Daten aus ihrem Adressbuch sammeln, können sie die angeforderte Erlaubnis verweigern.

Basierend auf der technischen Analyse der Apps und Kommunikationsprotokolle empfehlen die Forscher aktuellen und künftigen Diensteanbietern, die Implementierung der folgenden Funktionen, sofern sie dies nicht bereits getan haben:

  • Keine vertraulichen Daten (wie Anmeldeinformationen und API-Schlüssel) in der App speichern. Es gab schon Fälle, in denen Zugangsinformationen in Klartext in der App gespeichert wurden, so dass böswillige Nutzer sich damit in Drittanbieter-Services anmelden konnten.
  • Anbieten von verschlüsselten privaten Calls. Während sicherlich einige Kompromisse zwischen der Performance und der Verschlüsselung zu schließen sind, unterstützen moderne Messaging-Apps verschlüsselte Gruppenkonversationen; deren Anwendungsfall ist ein anderer, dennoch sollten künftige reine Audio-Social-Networks ein Datenschutzniveau bieten, das dem ihrer textbasierten Pendants gleichkommt. Zum Beispiel sollte das Secure Realtime Transport Protocol (SRTP).
  • Verifizieren der Nutzerkonten. Keines der reinen Audio-Social-Networks unterstützt derzeit verifizierte Konten wie bei Twitter, Facebook oder Instagram, und so gibt es bereits Fake-Konten. Nutzer sind daher gut beraten, manuell zu prüfen, ob das Konto, mit dem sie interagieren, echt ist (z. B. die Anzahl der Follower oder der verbundenen sozialen Netzwerkkonten.
  • Inhalteanalyse in Echtzeit. Alle Herausforderungen bei der Inhaltskontrolle, mit denen herkömmliche soziale Netzwerke zu kämpfen haben, sind bei reinen Audio- oder Videonetzwerken noch gravierender, da es von Natur aus schwieriger ist, Audio (oder Video) zu analysieren als Text (d. h., die Umwandlung von Sprache in Text erfordert Ressourcen). Auf der einen Seite gibt es eine eindeutige Datenschutzherausforderung, wenn diese Dienste eine Inhaltskontrolle implementieren (weil es bedeutet, dass sie eine Möglichkeit haben, die Audioströme anzuzapfen). Andererseits bietet die Inhaltskontrolle einige Vorteile, zum Beispiel bei der Priorisierung von Vorfällen.

 

 

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.