Reicht Big Data für Machine Learning in der Cybersicherheit?

Originalbeitrag von Jon Oliver

Jeden Tag entstehen 2,5 Quintillionen Bytes an Daten. Auch Cyberkriminelle tragen zur Datenfülle bei, denn sie verbessern ihre Taktiken kontinuierlich, indem sie alte Malware updaten und neue Bedrohungen entwickeln, um der Erkennung zu entgehen. Um den enormen Mengen an Bedrohungsdaten zu begegnen, setzen Sicherheitsanbieter auf maschinelles Lernen, um effizient die großen Datensets durchzugehen, aus ihnen zu lernen und die Verteidigung gegen Cyberbedrohungen zu verstärken. Die Bedeutung der Menge der Bedrohungsdaten ist offensichtlich. Aber ist die Datenmenge das A und O eines effektiven maschinellen Lernens? Reicht ein großer Datensatz aus, um die Cybersicherheit zu stärken?

Allein im letzten Jahr hinderte die Trend Micro™ Smart Protection Network™-Sicherheitsinfrastruktur mehr als 65 Mrd. Bedrohungen daran, den Betrieb von Kundenumgebungen zu stören.

Cybersicherheit beruht auf Bedrohungsdaten. Genau wie Unternehmen anhand der Analyse der Verkaufsdaten feststellen können, was ihre Kunden wollen, benötigen Cybersicherheitsanbieter und -forscher Bedrohungsdaten, um zu wissen, wie sie am besten mit eingehenden neuen Informationen umgehen können – beispielsweise um festzustellen, ob eine unbekannte Datei gutartig oder bösartig ist.

Was macht Big Data besser?

Big Data und maschinelles Lernen gehen bei der Cybersicherheit Hand in Hand. Bedrohungsdaten liefern die notwendigen Informationen, damit Cybersicherheits-Lösungen effektiv funktionieren. Ein großer Bedrohungsdatensatz ermöglicht es einem Machine-Learning-System, eine größere Vielfalt von Bedrohungen – sogar Varianten – zu erkennen und zu entscheiden, wie diese am besten abgewehrt werden können, bevor sie Endpunkte und Netzwerke infizieren. Es scheint, je mehr Daten ein Sicherheitsanbieter hat, desto besser ist das Bedrohungswissen, das er zur Abwehr von Cyberattacken nutzt. Diese Aussage erfordert einen genaueren Blick darauf und die Frage: Sind alle Datensätze gleich aufgebaut?

Während Big Data für die Analyse unerlässlich ist, kann die Sammlung und Verarbeitung nicht nur schwierig sein, sondern auch ineffektiv, insbesondere wenn sich die Big Data als „schmutzig“ erweist. „Schmutzige“ Daten sind solche, die unvollständige oder fehlerhafte Informationen enthalten. Eine Datenbereinigung oder das Auflösen von Widersprüchen ist oft notwendig, bevor große Bedrohungsdatenmengen analysiert werden können: Wenn ein Datensatz fehlerhafte Formatierungen oder Beschriftungen aufweist oder redundante oder ungenaue Daten enthält, kann es sein, dass er von maschinell lernenden Systemen nicht optimal verarbeitet wird. Ziel ist es, die Daten für ein System nutzbar zu machen, und diese Aufgabe erfordert ein hohes Maß an Bedrohungsexpertise.

Datenbereinigung ist eines der Probleme bei der Analyse von Big Data. Es ist mühsam, Daten zu bereinigen, bevor sie für eine genaue Datenanalyse verwendet werden können. Schätzungen zufolge geht 50 bis 80 Prozent der Zeit eines Datenwissenschaftlers für die Datenbereinigung verloren. Und unsaubere, minderwertige Daten sind nicht nur zeitaufwändig, sondern auch unwirtschaftlich. Einer Schätzung zufolge belaufen sich die Kosten dafür für die US-Wirtschaft allein auf 3,1 Billionen US-Dollar pro Jahr. Maschinelles Lernen ist weitaus effektiver, wenn die Daten dafür bereinigt werden.

Trend Micro ist sich dieser Tatsache bewusst. Deshalb konzentrieren sich die Bedrohungsforscher sowohl auf die Qualität als auch auf die Quantität der Datensätze, die via maschinelles Lernen gesammelt und analysiert werden. Die jahrelange Sicherheitsforschung lieferte dem Team umfangreiche und genau gekennzeichnete Bedrohungs- und Malware-Daten sowie die Expertise, neue Daten weiterhin genau zu verstehen und zu kennzeichnen. Weitere Einzelheiten zum Thema liefert der Originalbeitrag.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.