Entdecken von unbekannten Bedrohungen über für den Menschen lesbarem Machine Learning

Originalbeitrag von Marco Balduzzi, Senior Threat Researcher

Mithilfe eines Machine Learning-Systems hat Trend Micro drei Millionen Software-Downloads analysiert. Hunderttausende mit dem Internet verbundene Maschinen waren daran beteiligt. Bereits veröffentlichte Forschungsergebnisse stellten verschiedene wichtige Aspekte der Software-Downloads dar. Es ging um die Domänen, aus denen verschiedene Malware-Kategorien stammten, und um die Client-Anwendungen, die von Malware-Infektionen am meisten betroffen waren. Schließlich präsentierten die Forscher die Praktiken des Signierens von Codes und die Analyse bestimmter Zertifizierungs-Authorities, mit deren Zertifikaten auch Malware signiert wurde. In diesem letzten Teil der Ergebnisse zeigen die Autoren, wie sie ein für Menschen lesbares Machine Learning-System entwickelten, das in der Lage ist zu erkennen, ob eine herunter geladene Datei gut- oder bösartig ist.

Die Entwicklung dieses intelligenten Systems hat ihren Ursprung in der Frage: Wie lässt sich das Wissen über globale Software Download-Ereignisse konkret umsetzen? Genauer gesagt, wie können wir diese Art von Informationen dafür nutzen, um bei der Erkennung von Bedrohungen infolge größerer Mengen neuer bösartiger Software besser zu werden.

Erkunden: Die Mehrheit der herunter geladenen Dateien sind noch unbekannt

83% der von den Forschern beobachteten Downloads waren unbekannt. Das heißt, die herunter geladenen Dateien waren vorher noch nicht erkannt und als gut- oder bösartig eingestuft worden.

Die folgenden Fakten sollten in diesem Zusammenhang bedacht werden:

  1. Diese Feststellung ist auf das Datenset beschränkt, das die Forscher für ihre Recherche nutzten. Details dazu finden sich hier.
  2. Die Erkenntnisse wurden mit Akribie über das Labeling der herunter geladenen Daten gewonnen. Dabei nutzten die Forscher sowohl Trend Micro-interne Systeme als auch öffentlich verfügbare Services.

Aufgrund der Art der Datensets stellten die Forscher fest, dass die meisten Dateien eine nur geringe Verbreitung haben. Jede Datei für sich wurde nur noch einigen wenigen Maschinen herunter geladen. Daher könnte man zu dem Schluss kommen, diese Dateien seien nicht interessant und die Tatsache, dass sie unbekannt bleiben, sei verständlich.

Doch es lässt sich auch sagen, dass 69% des gesamten Maschinenbestands eine oder mehrere unbekannte Dateien herunter luden. Wäre dies Malware gewesen, so hätten sich hundert tausende Maschinen damit infiziert.

Dies wirft wichtige Fragen auf bezüglich der tatsächlichen Effizienz von Systemeinsätzen für umfassende praktische Schadsoftware-Erkennung und Klassifizierung, sowie auch deren Fähigkeiten mit dem Internet verbundene Maschinen vor neuen Bedrohungen zu schützen – vor allem da anscheinend viele unentdeckt bleiben.

Entdeckung: von der Beobachtung zur automatisierten Erkennung, um unbekannte Dateien zu reduzieren

Das Ziel dieses Forschungsprojekts war es, die Menge der unbekannten Downloads zu reduzieren. Zu diesem Zweck wurden die Beobachtungen aus den Studien in ein aktionsfähiges intelligentes System umgesetzt. Dieses System verarbeitet die Beobachtungen (etwa von bösartigen Signierern) und produziert automatisch Erkennungsregeln. Die Regeln lassen sich sofort anwenden und weisen hohe Erkennungsraten auf – zumindest den experimentellen Ergebnissen zufolge. Eine Regel besteht also aus einer Kombination von Informationen und könnte folgendermaßen aussehen:

IF (the file’s signer is “Apps Installer S.L.” AND its downloading process’s signer is “Microsoft Windows” AND the file’s certification authority (CA) is “thawte code signing CA – g2”) → MALICIOUS

Technische Einzelheiten dazu bietet der Originalbeitrag.

Systemdetails: für den Menschen lesbares System, dass False Positives in Schach hält

Zwei Hauptziele stecken hinter dem Design des Systems:

  1. Das Erstellen von Erkennungsregeln, die für Menschen lesbar sind. Für die Sicherheitsforscher ist es wichtig, erklären zu können, warum eine bestimmte Software entweder gut- oder bösartig ist. Kunden und allgemein die Nutzer sind immer mehr daran interessiert zu erfahren, wie sie anvisiert wurden, das heißt das Interesse gilt mehr dem Kontext rund um die Infektion als ihr selbst. Details liefert der Originalbeitrag.
  2. Die Zahl der False Positives (Fehler) sollte so gering wie möglich sein. Dies ist bei Cybersicherheitsaktionen wichtig, bei denen pro Tag tausende unbekannter und neuer Software Downloads (und potenzieller Bedrohungen) vorkommen. Um das zu erreichen, nutzten die Forscher nur ein Subset aller Regeln, die der PART-Algorithmus generiert. Einzelheiten im Originalbeitrag, ebenso wie eine Tabelle mit Informationen zu den extrahierten Regeln.

Einzelheiten zu dem für den Menschen lesbaren Machine Learning-System wie auch zu den bereits dargestellten Ergebnissen des Forschungsprojekts lassen sich im Whitepaper Exploring the Long Tail of (Malicious) Software Downloads nachlesen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*