Notre offre Formation L'équipe Blog Guides
Contact
<- Retour au blog

Le machine learning, une nouvelle porte d’entrée

31 Mars 2024 | Emilie

Illustration de l'article

machine learning

CyberSecurite

Intelligence Artificiel

Nous l'avons vu au Forum International de la cybersécurité de 2024 ce mois-ci, le machine learning est maintenant intégré dans de nombreuses solutions de sécurité. Cependant nous allons voir ici que l'utilisation de cette technologie ouvre aussi de nouvelles portes aux attaquants.

La securité dopé par le machine learning

Les algorithmes de machine learning (ML) constituent de véritables assistants dans différents domaines de la sécurité. En effet, Le ML est particulièrement efficace pour détecter et analyser les menaces en temps reel. Cette technologie peut analyser de vastes ensembles de données, détecter des modèles qui se répètent et donc d'identifier des anomalies potentielles qui pourraient passer inaperçues aux yeux des analystes humains.

Ainsi, le ML peut être utilisé dans de nombreux logiciels de détection se basant sur des analyses de signatures comme les antivirus ou anti-spoofing. C'est le cas de l'anti-spoffing Vade qui utilise le ML pour analyser le texte et le contenu des e-mails entrants des entreprises afin de reconnaitre les schémas d'abus courants des emails compromis. Dans la même idée, cette solution est aussi utilisée dans les logiciels de protection des réseaux. En écoutant le trafic en continu, le ML est capable d'apprendre sur les habitudes des utilisateurs du réseau (comme par exemple le nombre d'appareils connectés à une certaine période de la journée) et de déduire rapidement une anomalie (comme l utilisation d'un appareil a une heure peu habituelle).

Concevoir un algorithme de machine learning

Avant de comprendre comment les attaquants s’y prennent pour déjouer un algorithme de machine learning, il est essentiel d’appréhender le fonctionnement de ce dernier

Dans la plupart des cas, la création se fait en plusieurs phases. La première consiste à entraîner un modèle de machine learning à partir de données prétraitées en amont. Vient ensuite la phase d’utilisation, qui ne commence réellement que lorsque le modèle est fiable. Celui-ci est alors utilisé avec de nouvelles données, dont la provenance dépend du problème à résoudre. Dans le cas d’Amazon Echo, par exemple, il s’agit des instructions fournies par l’utilisateur. Cet éclaircissement fait, penchons-nous sur les trois principales types d’attaques visant le machine learning et comment l'appliquer aux solutions de securité.

Attaque, mode d’emploi

La première attaque possible face au ML est nommée « l’empoisonnement » (data poisoning attack). Elle a pour but de modifier le comportement de base de l’algorithme en alternant les données utilisées lors de la phase d’apprentissage. La pluspart des anti-virus existant sur le commerce se base sur une immense base de données de logiciels malveillants qui s'appelle VirusTotal. Les utilisateurs peuvent soumettre des fichiers suspects ou des liens vers des sites Web douteux et si ce dernier est valide il est alors ajoute a la base de donnees. On peut tout a fait envisager que cette base soit alteree par des fausses donnees et ainsi compromettre l4ensemble des anti virus se basant sur cette base et sur le ML.

Une autre attaque particulièrement répandue est « l’évasion » : il s’agit ici de jouer sur les données d’entrée du machine learning afin d’obtenir une décision différente de celle normalement attendue par l’application. Le but est d’introduire une donnée légèrement modifiée afin d’obtenir une décision différente tout en restant indétectable. L’attaquant tâche de créer l’équivalent d’une illusion d’optique pour l’algorithme. Dans le cas d'un antispam reposant sur le ML, un attaquant peut ici modifier très légèrement une information dans son mail (fautes d'orthographe, segmentation incorrecte) et ainsi ce dernier qui devait être classe dans la catégorie spam ne sera pas reconnue comme tel et sera considéré comme recevable.

Enfin, il existe l’attaque par « inférence », le but ici étant de déduire le type d’algorithme utilisé, ainsi que les données. Un attaquant teste alors successivement différentes requêtes sur l’application et étudie l’évolution de son comportement afin de le déduire – il s’agit dans ce cas d’un vol de données. Cette dernière attaque apparaît particulièrement efficace pour déterminer le comportement d’un système de détection fondé sur du machine learning dans les réseaux par exemple. On pourrait imaginer un attaquant qui teste de s'introduire dans les réseaux à plusieurs reprises en modifiant légèrement un paramètre (adresse IP, type d'appareil) a chaque essai. ET ainsi déduire au bout d'un moment les données utilisées et l'algorithme d'apprentissage

Vous souhaitez vous former sur le sujet ? Contactez-nous dès maintenant à contact@tornade.ioou directement sur : www.tornade.io