DefPloreX: ein Machine-Learning Toolkit für umfassende eCrime-Forensik

Originalartikel von Marco Balduzzi und Federico Maggi

Je mehr Daten vorhanden sind, desto aussagekräftigere Angaben können die Forscher zu einer Bedrohung machen. Doch große Datenvolumina erfordern mehr Verarbeitungsressourcen, um bedeutungsvolle und nützliche Informationen aus unstrukturierten Daten zu extrahieren. Häufig bleibt Sicherheitsprofis wie Ermittlern, Penetrationstestern, Reverse Engineers und Analysten nur die manuelle Datenanalyse, um über mühsame, immer wiederkehrende Abläufe Daten zu verarbeiten. Deshalb haben die Bedrohungsforscher von Trend Micro ein flexibles Toolkit erstellt, das auf quelloffenen Bibliotheken beruht und Millionen verunstalteter, manipulierter Webseiten effizient analysiert. Es kann auch für Webseiten eingesetzt werden, die als Ergebnis eines Angriffs lanciert wurden.

DefPloreX (ein Wortspiel aus „Defacement eXplorer”) nutzt eine Kombination aus Machine-Learning- und Visualisierungstechniken, um unstrukturierte Daten in bedeutungsvolle, High-Level-Beschreibungen umzuwandeln. Echtzeitinformationen zu Sicherheitsvorfällen, Diebstählen, Angriffen und Schwachstellen werden effizient verarbeitet und in durchsuchbare Objekte verdichtet, die für breit angelegte Forensik und Ermittlungen geeignet sind.

Das Tool verarbeitet Dateien mit Metadaten zu Web-Vorfällen (z.B. URLs), untersucht deren Ressourcen und extrahiert die Features aus den verunstalteten Webseiten. Die Ergebnisse werden in einem Elastic-Index gespeichert. Die verteilten Headless Browser und auch jede große datenverarbeitende Operation werden über Celery (de facto Aufgabenkoordination) koordiniert. Mithilfe einer Vielzahl von Python-basierten Datenanalyse-Techniken und Tools erzeugt DefPloreX offline Ansichten der Daten.

Den interessantesten Aspekt des Tools stellt die Möglichkeit der automatischen Gruppierung von ähnlichen entstellten Seiten in Cluster sowie die Zusammensetzung von Web-Vorfällen in Kampagnen dar. Dafür bedarf es nur eines Durchgangs, denn die Clustering-Technik ist parallelisiert und nicht speichergebunden. Ein Beispiel für die Arbeitsweise des Tools sowie weitere technische Einzelheiten liefert der Originalbeitrag.

Nach dem Vortrag auf der Black USA Arsenal in Las Vegas am 27. Juli wurden Teile von DefPloreX unter der  FreeBSD Lizenz auf Github veröffentlicht. Es geht um eine Framework-Bibliothek für die Verarbeitung von großen Mengen von Records aus Elasticsearch.

 

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*