Axe 5 - Modélisation et modèles probabilistes pour la sécurité

Professeurs supervisant l'axe de recherche: Michel Béra (Cnam) et Didier le Ruyet (Université Paris I - Cnam)

Chercheur associé: Prof. Michael Spence

La détection d'anomalies comportementales peut être abordée, dans une méthode probabiliste, par la constitution de modèles que l'on souhaite falsifiables (au sens de Karl Popper) et présentant une fiabilité statistique satisfaisante. On peut imaginer que pour un individu donné, l'environnement des données comportementales qui le caractérisent à un moment donné, tant dans le monde réel que dans le monde en ligne, est entré " dans le modèle " : le modèle effectue une série de calculs. Le résultat de ces calculs permet alors de proposer l'existence d'une anomalie comportementale pour cet individu à cet instant.

L'exemple du CRM (Customer Relationship Management) du risque de crédit dans le monde de la banque de détail, ainsi que l'exemple du risque d'attrition dans le monde des télécommunications utilisent une telle approche. Dans le premier cas, le modèle calcule un score (par exemple le score FICO aux USA) dont la valeur numérique va décider de l'octroi ou non d'un crédit ; dans le second cas, c'est encore un score qui va décider de la mise en place ou non d'un traitement marketing particulier pour tenter de dissuader le client de quitter le service de l'opérateur.

De telles méthodes existent depuis les années 60 et l'arrivée des premiers mainframes permettant de stocker des données sur le comportement des clients (banques, assurances, marketing direct, télécommunications.) L'expérience (récent projet FUI sur la fraude à la carte de crédit) montre que la qualité de la modélisation (et donc de la détection) est améliorée par plusieurs facteurs :

  • L'ajout de données, même si elles sont fortement corrélées au sens statistique, aux données initiales disponibles.
  • La création de données supplémentaires à partir de données quantitatives existantes (fonctions de données numériques, données agrégées, données de transition, données de réseaux sociaux, etc.)
  • L'ajout de données provenant du champ des données non structurées.

En fait, il apparaît que pour chaque problème spécifique (et donc celui de la détection probabiliste d'anomalies comportementales), c'est le choix, le traitement, l'encodage, le filtrage, la gestion des données manquantes, etc. des données de ce nouveau domaine qui donnera l'avantage décisif qui sépare un "bon" modèle d'un "mauvais" modèle. Pour ce qui suit en aval, la méthode cluster + décomposition (sélection des variables + calcul du modèle de score) par cluster semble donner de bons modèles. En paraphrasant Marshall McLuhan et son " the medium is the message ", ici " the data collection and preprocessing is the model ".

L'axe de recherche se concentrera donc sur trois développements de cette approche :

  • L'inventaire des données disponibles (hard et soft) sur le sujet : identification desdites données, gestion des données manquantes, fusion robuste de différentes sources de données, création d'agrégats et de réseaux sociaux adaptés à ces données, test de modélisation par un modèle de score.
  • Calcul (et ajout éventuel) d'un nouveau type de données : les comportements extrêmes, qui peuvent être quantifiés. Depuis Hurst et Fréchet, on dispose d'outils puissants pour décrire l'attraction des lois des données à partir de quantiles extrêmes (par exemple les 5% de valeurs les plus élevées) vers des lois limites particulières (Fréchet, Gumbell, Weibull), et on sait construire des seuils pour la mise en œuvre de cette attraction (c'est le même principe qui anime les méthodes de stress test bancaire face à une crise financière grave).
  • Calcul (et ajout éventuel) d'un nouveau type de données : les résidus par filtrage de données spatiales et longitudinales. L'idée est de suivre une cohorte d'individus, et de collecter des données les concernant au niveau spatial et temporel. Il est alors possible de modéliser l'échantillon ainsi constitué par un processus spatial et temporel, qui constituera un modèle "même pas faux" (au sens des p-values des tests associés à la modélisation) de ce qui a été observé.  En soustrayant les données en un lieu et un temps donnés de la valeur de ce que donne le modèle, on obtient un échantillon de résidus dont on espère qu'ils auront une autocorrélation nulle dans le temps et l'espace.  Ce sont ensuite ces résidus qui peuvent être utilisés pour les modèles de détection des anomalies.