Vous êtes victime d’un incident de sécurité ? Contactez notre CERT

28/10/2024

Cybersecurity Insights

Les vulnérabilités dans les LLM : Training Data Poisoning

Equipe SEAL

Bienvenue dans cette suite d’articles consacrée aux Large Language Model (LLM) et à leurs vulnérabilités. Depuis quelques années, le Machine Learning (ML) est devenu une priorité pour la plupart des entreprises qui souhaitent intégrer des technologies d’Intelligence Artificielle dans leurs processus métier.

Focus technique : Qu'est-ce qu'un entrainement pour une IA ?

L’entraînement d’un LLM est un processus long et complexe en plusieurs étapes qui permet de construire le modèle en question à partir d’un large ensemble de données. Cet entraînement est une étape majeure dans la construction des LLM car c’est ce qui va donner à l’Intelligence Artificielle son fonctionnement et sa manière de raisonner et retrouver des informations.

L’entraînement du modèle est composé de 6 étapes, décrites ci-après. Pour simplifier la compréhension de ces concepts, un parallèle avec le fonctionnement du cerveau humain sera donné à la fin de chaque étape :

1) Collecte de Données

La première étape consiste à rassembler un vaste corpus de données qui seront passées en entrée de l’entraînement du modèle. Dans le cas d’un LLM, ce sont des données textuelles qui sont récoltées, provenant de diverses sources telles que des livres, des articles de presse, des forums en ligne, des réseaux sociaux…
L’objectif de cette étape peut être de couvrir la plus large gamme possible de sujets et de styles d’écriture pour que le modèle puisse apprendre à comprendre et à générer du texte de manière polyvalente. Il est également possible, à l’inverse, d’entrainer l’IA sur des données spécifiques à une entreprise ou à un style de rédaction, mais cela se fait généralement lors d’une étape ultérieure appelée le “fine-tuning”.

Chez un humain cela reviendrait à acheter une grande quantité de livres afin d’apprendre un nouveau métier.

2) Prétraitement des Données

Avant de pouvoir être ingérées par le mécanisme d’entraînement, les données collectées doivent être nettoyées et prétraitées. Cela peut inclure :

  • La suppression des caractères spéciaux et des erreurs typographiques.
  • La tokenisation, c’est-à-dire la division du texte en unités de base (mots, sous-mots, ou caractères).
  • La normalisation, comme la conversion de tout le texte en minuscules sauf les premières lettres.

Ce prétraitement, extrêmement chronophage, est quasiment aussi important que la collecte des données. La qualité de l’apprentissage du LLM, et donc ses performances, en dépendent. De plus, il est difficile de faire réaliser cette tâche par un programme ou par une autre IA, car les erreurs de ceux-ci pourraient impacter les modèles suivants. Il est donc primordial de faire réaliser ce traitement par un humain pour s’assurer de sa justesse.

Chez un humain cela reviendrait à s’assurer que tous les livres achetés sont écrits dans une langue maitrisée, et que les informations qu’ils contiennent sont toutes considérées comme fiables.

3) Préparation des Données

Les données sont ensuite divisées en ensembles d’entraînement, de validation et de test. Comme son nom l’indique, l’ensemble d’entraînement sera utilisé pour entraîner le modèle, l’ensemble de validation servira à ajuster la configuration générique du modèle et évaluer ses performances au cours de l’entraînement, et l’ensemble de test sera, finalement, utilisé pour les performances finales du modèle.

Tout comme l’étape précédente, cette étape est très chronophage et il est nécessaire de s’assurer de son exactitude, pour les mêmes raisons que précédemment.

Chez un humain cela reviendrait (très vaguement) à classer les livres par niveaux et préparer les livres de tests théoriques ou d’annales qui serviront à vérifier les connaissances de l’humain en fin d’apprentissage.

4) Choix de l'Architecture du Modèle

Il existe de nombreux types d’architectures pour des modèles de LLM, comme par exemple :

  • Les Réseaux de Neurones Transformer
  • Les Réseaux de Neurones Convolutifs, principalement utilisés dans la reconnaissance d’image
  • Les Réseaux de Neurones Récurrents

D’autres architectures sont actuellement en développement et sont présentés dans des articles de recherches ou entrent à peine en production pour le grand public, tels que les Réseaux de Neurones à Mémoire Liquide (Liquid Neural Networks). Cette dernière architecture, plus récente et moins courante, utilise des dynamiques de réseaux de neurones inspirées par les systèmes biologiques pour capturer des dépendances temporelles complexes. Ces réseaux pourraient, à terme, être plus flexibles et adaptables que les architectures traditionnelles, résultant en une amélioration des performances et de la qualité des informations obtenues. Un exemple de modèle fonctionnel et extrêmement performant exploitant une architecture de type LFM (Liquid Flow Machines) est présenté sur liquid.ai.

Néanmoins, la majorité des modèles à disposition des utilisateurs à l’heure actuelle, par exemple via ChatGPT, Gemini, Midjourney ou Phind, utilisent des architectures basées sur des réseaux de neurones Transformer.
Les LLMs disponible pour le grand public en 2024 utilisent généralement des architectures de réseaux de neurones basées sur des transformateurs, qui sont actuellement les plus populaires et les plus performants pour cette tâche au niveau industriel. Ces modèles sont capables de traiter des séquences de texte de manière efficace grâce à des mécanismes d’attention. Le mécanisme d’attention permet à un modèle de « prêter attention » à différentes parties de l’entrée lors de la génération de chaque élément de la sortie. En d’autres termes, il permet au modèle de pondérer l’importance de chaque partie de l’entrée en fonction de sa pertinence pour la tâche en cours. La représentation pondérée est utilisée pour générer l’élément de la séquence de sortie.
Cette étape est difficilement comparable à un mécanisme d’apprentissage humain, cependant le mécanisme d’attention peut être comparé à l’identification des informations qui sont les plus pertinentes pour la tâche en cours. Par exemple, si vous apprenez à cuisiner, vous pourriez prêter plus d’attention aux recettes et aux techniques de cuisson qu’à la qualité des ingrédients et au temps de préparation nécessaire.

5) Entrainement du Modèle

L’entraînement du modèle est la première partie technique modifiant directement le modèle. Elle consiste à “ajuster les poids du réseau de neurones pour minimiser une fonction de perte. Cela se fait généralement en utilisant des algorithmes d’optimisation comme l’algorithme de “descente de gradient stochastique” (SGD) ou l’algorithme d’optimisation Adam”. Ces algorithmes sont des outils puissants qui permettent d’améliorer les performances du modèle en ajustant ses paramètres de manière itérative.

La partie précédente contient un grand nombre d’éléments techniques avancés relatifs aux réseaux de neurones, qu’il serait trop long de présenter ici. L’essentiel du fond, dans cette étape, est que le moteur d’apprentissage choisit et utilise un ou plusieurs algorithmes d’optimisation adaptés à l’architecture du modèle pour traiter et adapter celui-ci en fonction des données collectées.

Le modèle est ainsi entraîné sur l’ensemble d’entraînement pendant de nombreuses itérations (époques). Les nombreuses itérations sont nécessaires pour permettre au modèle d’apprendre progressivement et de s’améliorer en ajustant ses paramètres de manière itérative. Chaque itération permet au modèle de se rapprocher un peu plus de la solution optimale, en réduisant l’erreur entre les prédictions et les valeurs réelles. En version plus simple, c’est la phase du processus d’entraînement qui va modifier les neurones pour qu’ils s’adaptent au mieux à la tâche demandée.

Chez un humain cela reviendrait à lire les données collectées précédemment pour apprendre un nouveau métier ou une nouvelle compétence.

6) Évaluation et Ajustement

Pendant l’entraînement, le modèle est régulièrement évalué sur l’ensemble de validation pour s’assurer qu’il apprend correctement. Les hyperparamètres, comme le taux d’apprentissage, peuvent être ajustés en fonction des performances sur l’ensemble de validation. Cela permet de vérifier que le modèle ne surapprend pas (overfitting en anglais) les données d’entraînement et qu’il généralise bien aux nouvelles données. En ajustant les hyperparamètres, on peut améliorer la capacité du modèle à faire des prédictions précises et fiables sur des données qu’il n’a jamais vues auparavant.

Chez l’humain, cela reviendrait à passer des tests ou des examens et vérifier que les résultats correspondent à nos objectifs. Sinon, la façon d’apprendre doit être modifiée afin de se concentrer en priorité sur certaines parties et modifier nos connaissances sur d’autres, avant de lancer un nouveau cycle d’entraînement.

Lorsque les évaluations correspondent aux objectifs initiaux, il est considéré que l’entrainement est terminé et que le modèle est prêt pour utilisation !

Description de la vulnérabilité

Comme vu ci-dessus, le point de départ de tout entraînement de LLM est le jeu de données d’entraînement. Pour être performant, ces données doivent couvrir une large gamme de domaines, de genres et de langues.

L’empoisonnement des données d’entraînement (Training Data Poisoning en anglais) fait référence à la manipulation des données de pré-entraînement ou des données impliquées dans les processus de raffinement (fine-tunning en anglais) pour introduire des vulnérabilités, des portes dérobées ou des biais pouvant compromettre la sécurité, l’efficacité ou le comportement éthique du modèle. Les informations empoisonnées peuvent être exposées aux utilisateurs ou créer d’autres risques tels que la dégradation des performances, l’exploitation des logiciels en aval et l’atteinte à la réputation.

Même si les utilisateurs se méfient des sorties problématiques de l’IA, les risques persistent, y compris l’altération des capacités du modèle et le potentiel de nuire à la réputation de la marque.

Exemples

Certaines IA ne fournissent pas des fonctions sécurisées lors de la demande d’écriture de code. Cela est probablement dû à un scrapping de masse de code source sur GitHub, GitLab ou sur des forums de ce type, qui ont pu contenir du code non sécurisé (l’exemple ci-dessous a été volontairement créé en manipulant le contexte afin qu’il génère ces réponses, le modèle utilisé de manière usuelle ne commettant pas cette erreur par défaut).

Figure 1: Simulation de génération de code vulnérable à la suite de l'utilisation de données d'entrainement empoisonnées
Figure 2: Simulation de génération sécurisé à la suite d'une utilisation de données plus saine

Des données controversées ou illégales sont insérées dans les données d’entrainement du modèle afin d’incriminer l’entreprise lors de l’utilisation de son IA.

Une fausse version de la loi française est insérée dans une IA d’aide juridique (le test ci-dessous a été réalisé à la suite d’une modification de contexte du modèle LegiGPT et non par suite d’un vrai data poisoning, à des fins d’illustration de cet article).

Figure 3: Simulation d'une génération de fausse loi dans un modèle d'aide juridique

Risques d'une telle vulnérabilité

  1. Réduction de la précision : Les modèles entraînés sur des données empoisonnées peuvent produire des prédictions incorrectes, réduisant ainsi leur utilité et leur fiabilité.
  2. Biais et injustice : L’empoisonnement des données peut introduire des biais dans les modèles, ce qui peut conduire à des décisions injustes ou discriminatoires. Par exemple, un modèle de reconnaissance faciale empoisonné peut avoir des performances réduites pour certaines populations.
  3. Perte de confiance : Les utilisateurs peuvent perdre confiance dans les modèles qui produisent des résultats incorrects ou biaisés, ce qui peut entraîner des répercussions sur la réputation de l’organisation.

L’empoisonnement des données est considéré comme une attaque d’intégrité car la manipulation des données d’entraînement affecte la capacité du modèle à produire des prédictions correctes. Naturellement, les sources de données externes présentent un risque plus élevé car les créateurs de modèles n’ont pas le contrôle des données ni un haut niveau de confiance que le contenu ne contienne pas de biais, d’informations falsifiées ou de contenu inapproprié.

Pour aller plus loin

Voir les derniers Cybersecurity insights

9 janvier 2026
Our Security Evaluation Laboratory performed a security audit of HAProxy. This audit was aimed at evaluating the security level of […]
22 décembre 2025
Recently, our team performed a security audit of SmallStep Certificates PKI. This audit was focused on the cryptographic aspects of […]
18 décembre 2025
Almond est classé Leader dans l'étude Blueprint® 2025-2026 dédiée aux SOC managés pour le mid-market, et visionnaire sur les grandes […]
4 novembre 2025
Comme chaque année, SWIFT met à jour son standard CSCF et apporte son lot de nouveautés. Il peut s'avérer complexe […]
22 octobre 2025
Find here the crypto and reverse challenges that our teams created for the European Cyber Week pre-qualification and qualification tests […]
20 octobre 2025
La référence mondiale ISG distingue Almond dans les six domaines clés de la cybersécurité, confirmant la solidité de son expertise […]
10 septembre 2025
Téléchargez l'étude complète "Voices of CISOs" en complétant le formulaire ci-dessous.
24 juillet 2025
Longtemps perçue comme une affaire d’État ou de grandes entreprises, la cybersécurité s’impose désormais comme un levier structurant de gouvernance […]
22 juillet 2025
M&NTIS Platform est une solution SaaS destinée au test d'efficacité de produits de défense et d'architectures de supervision. Une nouvelle […]
16 juillet 2025
De la météo à la géolocalisation, des télécommunications à la défense, nos infrastructures spatiales sont devenues un incontournable de notre […]

Nous vous souhaitons de joyeuses fêtes de fin d’année hautes en couleur et à l’année prochaine pour une année 2025 exaltante ! 🎉

🎁 Merci à tous pour votre participation au quiz de l’avent, nous contacterons le gagnant très prochainement.

🎅 Chez Almond, l’esprit festif des fêtes de fin d’année est arrivé en avance !

Nos collaborateurs ont profité d’une soirée chaleureuse et joyeuse dans l’un des restaurants les plus spectaculaires de Paris, Le Cirque avec un cocktail dinatoire, des surprises et un Secret Santa.

Et un peu plus de magie de Noël ? Almond a également ouvert ses portes aux familles de nos collaborateurs pour une après-midi conviviale autour de l’arbre de Noël. Les enfants ont été captivés par des contes enchantés, de 1001 contes Constance Felix et ont savouré un goûter délicieux avec des chocolats chauds préparés par les Empotés. Le Père Noël a distribué des coloriages géants et des cadeaux pour le plus grand bonheur des enfants 🎁

Jour 23 |

Jour 22 | Laquelle de ces menaces n’est pas un cryptoransomware ?

  • Réponse 1 : Lockbit3
  • Réponse 2 : Phobos
  • Réponse 3 : NotPetya
  • Réponse 4 : WannaCry

Laïus explicatif : Bien que NotPetya ressemble à un ransomware, il s’agit en réalité d’un wiper. Ce malware rend indisponible les fichiers de la victime, mais ne fournit aucun moyen de les déchiffrer, même après le paiement de la rançon. L’objectif principal de NotPetya n’est pas l’extorsion financière, mais la destruction de données.
En cas d’incident, voici les coordonnées de notre CERT : [email protected] +33 (0)1 83 75 36 94

Jour 21 | Vous dialoguez via votre terminal avec un service distant et vous vous rendez compte qu'il contient un stack-based overflow. Vous cherchez à l'exploiter à l'aveugle et trouvez finalement l'offset de l'adresse de retour, après avoir contourné les éventuelles protections. Vous cherchez maintenant un stop gadget pour continuer votre exploitation. Quelle est son utilité :

  • Réponse 1 : interrompre à la demande le flux d’exécution du binaire distant le temps de l’exploitation
  • Réponse 2 : obtenir une exécution fiable et maîtrisée avec un comportement reproductible
  • Réponse 3 : pouvoir mettre en pause le binaire temporairement pendant l’envoi de la payload
  • Réponse 4 : pouvoir stopper proprement le binaire afin d’éviter un éventuel crash à la fin de l’exploitation

Laïus explicatif : L’exploitation se déroulant en aveugle, il est nécessaire de trouver une adresse permettant d’obtenir un comportement particulier et reproductible à chaque exécution, comme l’affichage du texte « Bye ». Si une telle adresse est trouvée, elle correspond au stop gadget. Il permettra donc de continuer l’exploitation et de valider ou invalider nos déductions lors de l’exécution du binaire.

Jour 20 | Le terme "spam" pour désigner les messages indésirables provient initialement

  • Réponse 1 : D’une marque de jambon en boîte
  • Réponse 2 : D’un acronyme signifiant « Stupid Pointless Annoying Messages »
  • Réponse 3 : D’un sketch des Monty Python
  • Réponse 4 : D’un code utilisé pendant la Seconde Guerre mondiale

Laïus explicatif : Ce mot, à l’origine un acronyme de : SPiced hAM (du jambon épicé en boîte vendue par une entreprise américaine), est repris en masse, pour brouiller la conversation, dans un sketch des Monty Python.

Jour 19 | L’acronyme PACS désigne  :

A. Un format permettant la visualisation des images dans l’imagerie médicale

B. Un système d’archivage et de communication d’images dans l’imagerie médicale

C. Un prestataire d’audit et de conseil en cybersécurité

D. Un pacte civil de solidarité

  • Réponse 1 : L’ensemble des réponses
  • Réponse 2 : Réponses C et D
  • Réponse 3 : Réponses B, C et D
  • Réponse 4 : Réponses A, C et D

Laïus explicatif :

Un PACS, dans le secteur de l’imagerie médicale, désigne effectivement un système (et non un format) signifiant « Picturing Archiving and Communication System » permettant de gérer les images médicales grâce à des fonctions d’archivage.

De plus, depuis septembre, l’ANSSI a publié un référentiel d’exigences qui permet aux commanditaires de prestations de sécurité de bénéficier de garanties sur les compétences des prestataires, sur le processus d’accompagnement et de conseil, ainsi que sur la sécurité des systèmes d’information associés. Ce référentiel vise à reconnaître officiellement les prestataires en tant que « Prestataires d’accompagnement et de conseil en sécurité ».
Enfin, en France, le PACS désigne aussi une forme d’union civile dénommée Pacs.

Jour 18 | En quelle année l'ANSSI prévoit de ne plus recommander l'utilisation de certains algorithmes de chiffrement classiques en raison de l'augmentation de la puissance de calcul des ordinateurs classiques et de la menace posée par les ordinateurs quantiques ?

  • Réponse 1 : 2026
  • Réponse 2 : 2030
  • Réponse 3 : 2035
  • Réponse 4 : 2050

Laïus explicatif : Dans son dernier avis sur la migration vers la cryptographie post quantique, paru en janvier 2024, l’ANSSI encourage tous les éditeurs à mettre en œuvre dès à présent une hybridation entre la cryptographie standard et la cryptographie post-quantique (pour les produits qui doivent protéger des informations après 2030) et recommande d’utiliser en priorité la cryptographie post-quantique à partir de 2030.  

Jour 17 | Quelle est la dernière course à laquelle j’ai participé ?

  • Réponse 1 : Le Vendée Globe
  • Réponse 2 : National Figaro 3 en équipage
  • Réponse 3 : La Solitaire du Figaro Paprec
  • Réponse 4 : Le Havre Allmercup

Laïus explicatif : Le National Figaro 2024 s’est déroulé du 4 au 6 octobre dernier à Lorient. Thomas et son équipe sont arrivés en 2e position ! Cette course clôture ainsi la saison 2024 sur le circuit Figaro. 

  • Réponse 1 : Aetheris

  • Réponse 2 : Venopie

  • Réponse 3 : Lumidus

  • Réponse 4 : Pandama

Laïus explicatif : Au sein de la plateforme d’attaque – défense M&NTIS, le scénario Pandama propose une kill chain dont l’impact, après compromission du contrôleur de domaine, permet de déployer, par GPO, une charge utile effaçant les données présentes sur les systèmes de fichiers du SI simulé.

Pour rappel, basé sur les technologies d’émulation d’adversaire et de Cyber Range, M&NTIS permet d’exécuter des campagnes d’attaques réalistes afin de challenger dans un environnement immersif les procédures et l’expertise des équipes SOC et CERT. M&NTIS répond ainsi aux enjeux d’amélioration continue de la défense.

Jour 15 | Quel type de menace ne fait pas parti de l’insider threat?

  • Réponse 1 : Malicious
  • Réponse 2 : Ransomware group
  • Réponse 3 : Negligent
  • Réponse 4 : Vendors

Laïus explicatif : Almond a proposé une étude sur la menace interne qui décrit chaque type d’insider. Les groupes de ransomware sont externes à l’entreprise mais peuvent recruter des employées pour récupérer des accès valides et compromettre l’entreprise. Retrouvez l’étude ici.

Jour 14 | Selon vous, quelle proportion des cyberattaques réussies sont liées à une erreur humaine ?

  • Réponse 1 : 40%

  • Réponse 2 : 100%

  • Réponse 3 : 70%

  • Réponse 4 : 90%

Laïus explicatif : 90% des cyberattaques trouvent leur origine dans une erreur humaine. L’erreur humaine en cybersécurité englobe toutes les actions, conscientes ou non, qui exposent les systèmes et les données à des menaces. Cela inclut des gestes apparemment innocents, comme le fait de :

  • Cliquer sur les liens malveillants
  • Utiliser des mots de passe faibles ou partagés
  • Partager des informations sensibles
  • Négliger la mise à jour des logiciels et systèmes
  • Commettre une erreur de configuration ou mal administrer les accès
  • Utiliser des clés USB non sécurisées ou prévenant de sources inconnues

Jour 13 | Almond & Amossys sont présents en France et à l’international pour garantir proximité et réactivité grâce à nos services 24/7. Dans quels pays se trouvent nos équipes ?

  • Réponse 1 : FRA – CHE – AUS – JPN

  • Réponse 2 : FRA – CAN – CHE – KOR

  • Réponse 3 : FRA – AUS – CAN – GBR

  • Réponse 4 : FRA – BEL – ITA – USA

Jour 12 | Challenge OSINT

Val Thorens

Laïus explicatif : Depuis plusieurs années consécutives, notre CSE organise des séjours à Val Thorens pour profiter des sports d’hiver. Que l’on aime dévaler les pistes de ski à toute allure, tenter l’aventure en prenant des cours d’initiation ou simplement déguster une raclette après une randonnée raquette et un passage à la piscine et au sauna, ce séjour est l’occasion de partager des moments convivaux avec ses collègues ! TIC, TAC, le prochain séjour ski approche à grands pas !

Jour 11 | Parmi ces propositions, quelle technique Mitre Atta&ck est la plus utilisée par les attaquants ?

  • Réponse 1 : OS Credential Dumping
  • Réponse 2 : Valid Account
  • Réponse 3 : Impair Defenses
  • Réponse 4 : Remote services

Laïus explicatif : L’achat ou la récupération de comptes valides sont de plus en plus commun. Certains cybercriminels appelés Initial Access Broker se spécialisent dans la compromission de victimes dans le but de récupérer des identifiants valides qui seront ensuite vendus à d’autres cybercriminels comme les groupes de ransomware.

Jour 10 | Parmi ces structures de données de la mémoire dans Windows, quelle est celle qui permet de lister les processus en cours d’exécution ?

  • Réponse 1 : EPROCESS
  • Réponse 2 : Kernel Debugger Data Block (KDBG)
  • Réponse 3 : Kernel Processor Control Region (KPCR)
  • Réponse 4 : Process Environment Block (PEB)

Laïus explicatif : La structure EPROCESS (Executive Process) est utilisée par Windows pour gérer chaque processus en cours d’exécution. Elle contient des informations essentielles comme l’identifiant du processus (PID), l’état, les threads associés, et d’autres données nécessaires au système pour suivre les processus actifs. En analysant les structures EPROCESS, on peut lister les processus actuellement en mémoire. Le PEB est lié à chaque processus de manière individuelle. Enfin le KPCR est nécessaire pour trouver l’adresse du KDB qui à son tour permettra de pointer vers le EPROCESS.  

Jour 9 | Quel est le problème si la suite cryptographique TLS_RSA_WITH_AES_256_CBC_SHA256 est utilisée avec l'extension encrypt_then_mac pour la sécurité d'une communication TLS ?

  • Réponse 1 : L’algorithme de chiffrement est trop faible

  • Réponse 2 : L’intégrité de la communication n’est pas assurée

  • Réponse 3 : Il n’y a pas la propriété de confidentialité persistante (Perfect Forward Secrecy)

  • Réponse 4 : Le serveur n’est pas correctement authentifié

Laïus explicatif : La bonne réponse est le manque de confidentialité persistante.

La suite TLS_RSA_WITH_AES_256_CBC_SHA256 utilise la clé publique RSA du serveur pour chiffrer le secret partagé utilisé pour sécuriser les échanges de la session TLS : en cas de compromission de la clé privée du serveur, l’ensemble des échanges des sessions passées peuvent être déchiffrés par un attaquant.
La confidentialité persistante (connue sous le nom de Perfect Forward Secrecy en anglais) consiste en l’utilisation d’un échange Diffie-Hellman éphémère pour négocier le secret partagé, sans utilisation de la clé RSA du serveur.

Jour 8 | Quel est l'avantage d'utiliser un outil de couverture de code lors d'une session de fuzzing ?

  • Réponse 1 : Réduire le temps de fuzzing en optimisant certaines instructions assembleur.

  • Réponse 2 : Utiliser la technique de « pré-chauffage » du harnais (« warming code attack »).

  • Réponse 3 : Pouvoir analyser facilement les sections de code atteintes par le fuzzer.

  • Réponse 4 : Ne pas prendre en compte les vulnérabilités de type use-after-free.

Laïus explicatif : Les outils de couverture de code (“code coverage” en anglais) permettent de savoir avec précision quelles lignes de code d’un programme qui ont réellement été exécutées. Lors d’une session de “fuzzing”, ces outils peuvent aider l’analyste à savoir si les fonctions ciblées ont été atteintes par le fuzzer. Cette technique a notamment été utilisée par un membre de l’équipe Offsec pour trouver une vulnérabilité dans une bibliothèque open-source (voir notre article de blog)

Jour 7 | Quelle est la principale éthique qui doit être prise en compte dans le développement de l’Intelligence Artificielle ?

  • Réponse 1 : L’équité et la non-discrimination

  • Réponse 2 : La transparence des algorithmes utilisés

  • Réponse 3 : La sécurité et la confidentialité des données

  • Réponse 4 : Toutes les réponses

Laïus explicatif : L’équité et la non-discrimination sont des principes fondamentaux dans le développement de l’IA. Les systèmes d’IA doivent être conçus pour éviter les biais et assurer qu’ils ne favorisent pas des groupes spécifiques au détriment d’autres, afin de garantir un traitement juste et égal pour tous les utilisateurs. La transparence des algorithmes est cruciale. Les utilisateurs doivent comprendre comment les décisions sont prises par l’IA, ce qui inclut la possibilité d’expliquer les résultats ou actions générés par un système d’intelligence artificielle, afin d’éviter des décisions opaques ou injustes. La sécurité et la confidentialité des données sont enfin des préoccupations majeures lorsque l’on développe des systèmes d’IA, car ces technologies peuvent collecter et traiter des informations sensibles, ce qui soulève des questions sur la protection des données personnelles et la vie privée.

Jour 6 | Selon vous, en moyenne combien de ransomware ont eu lieu par jour en 2023 dans le monde ?

  • Réponse 1 : 1 par jour

  • Réponse 2 : 100 par jour

  • Réponse 3 : 30 par jour

  • Réponse 4 : 12 par jour

Laïus explicatif : En moyenne 12 attaques ransomware ont été signalées par jour par des victimes dans le monde en 2023 selon les chiffres d’Almond. Pour plus d’informations, n’hésitez pas à consulter notre Threat Landscape.

Jour 5 | Challenge de stéganographie

Réponse : PASSI RGS, PASSI LPM, CESTI, ANJ, Cybersecurity made in Europe, PCI QSA Company et Swift

Etape 1 : Observer l’image, trouver 3 logos cachés (Cybersecurity made in Europe, PCI QSA Company & Swift) et une indication pour chercher dans les métadonnées du fichier. 

Etape 2 : Challenge de stéganographie

En lançant dans son terminal un des outils les plus courants, « binwalk », on trouve une image JPEG dans le PDF. En extrayant les données grâce au même outil et en renommant le fichier en .jpeg, on voit apparaitre une image cachée. Ensuite, en utilisant « steghide », on peut extraire le fichier avec le mot de passe « Almond ». Ce fichier contient une suite de caractère encodée en base64. En la déchiffrant, on obtient les quatre autres certifications : PASSI RGS, PASSI LPM, CESTI et ANJ. 

Jour 4 | Concernant les accompagnements de la nouvelle qualification PACS de l’ANSSI, sur la portée Sécurité des Architectures, quels sont les domaines qui font partie du périmètre possible d’un accompagnement ?

  • Réponse 1 : la sécurité réseau, l’authentification, et l’administration du SI

  • Réponse 2 : la sécurité réseau, la sécurité système, et les mécanismes de chiffrement

  • Réponse 3 : l’administration du SI, le cloisonnement, les sauvegardes, et la stratégie de détection/réponse

  • Réponse 4 : tous ces sujets et plus encore

  • Laïus explicatif : Le référentiel PACS, sur la portée Sécurité des Architectures, porte bien sur tous les sujets liés de près ou de loin aux infrastructures du SI. La liste n’est pas exhaustive et est à adapter à chaque prestation d’accompagnement suivant le périmètre d’intervention. Dans le référentiel, l’ANSSI propose une liste de sujets à adresser dans un rapport PACS page 28 et 29.

    https://cyber.gouv.fr/sites/default/files/document/PACS_referentiel-exigences_v1.0.pdf

Jour 3 | Quel référentiel permet la certification de produits de sécurité ?

  • Réponse 1 : NIS2

  • Réponse 2 : Critères Communs

  • Réponse 3 : PASSI

  • Réponse 4 : ISO27001

Laïus explicatif : Le schéma Critères Communs est un ensemble de normes et méthodologies permettant de cadrer les moyens utilisés pour évaluer, de manière impartiale, la sécurité d’un produit de sécurité (logiciel ou matériel). Ce schéma est reconnu internationalement au travers de plusieurs accords (SOG-IS, CCRA et prochainement EUCC).

Le référentiel PASSI permet la qualification, par l’ANSSI, des prestataires d’audit de la sécurité des SI. ISO27001 est la norme décrivant les bonnes pratiques à suivre dans la mise en place d’un SMSI. Enfin, NIS2 est une directive visant à harmoniser et à renforcer la cybersécurité du marché européen.

Jour 2 | Quel est l’artefact forensique qui permet de prouver une exécution d’un programme sous Windows ?

  • Réponse 1 : JumpList

  • Réponse 2 : ShimCache

  • Réponse 3 : $MFT

  • Réponse 4 : Prefetch

Laïus explicatif : Le Prefetch est un artefact spécifique à Windows qui optimise le chargement des programmes. Lorsqu’un programme est exécuté pour la première fois, Windows crée un fichier dans le dossier C:\Windows\Prefetch, qui contient des informations sur le programme et les ressources qu’il a utilisées. Ces fichiers incluent également des horodatages correspondant à la première et aux dernières exécutions. L’existence d’un fichier Prefetch (.pf) pour un programme est une preuve solide qu’il a été exécuté. C’est l’un des artefacts forensiques les plus fiables pour prouver l’exécution d’un programme.

Jour 1 | Quel texte européen permettra qu’à partir de fin 2027, tous les produits vendus dans l’UE et comprenant des composants numériques seront exempts de vulnérabilités et maintenus pendant tout leur cycle de vie ? #DigitalTrust

  • Réponse 1 : Le Cyber Security Act
  • Réponse 2 : Le Cyber Resilience Act
  • Réponse 3 : La Directive REC
  • Réponse 4 : La Directive NIS2 

Laïus explicatif : Le Cyber Resilience Act, qui a été publié ces derniers jours au Journal Officiel de l’Union Européenne est entré en vigueur le 10 décembre 2024. A compter de cette date, les fabricants et éditeurs doivent adapter leur processus pour pouvoir continuer à vendre des produits au sein de l’UE après le 10/12/2027.

EU Cyber Resilience Act | Shaping Europe’s digital future