Les chercheurs analysent les découvertes actuelles sur les techniques de sécurité et de confidentialité de l’apprentissage automatique assisté par ordinateur confidentiel ainsi que les limites des systèmes d’environnement d’exécution de confiance (TEE) existants


L’évolution du machine learning (ML) offre des possibilités d’utilisation plus larges. Cependant, les applications étendues augmentent également les risques d’une grande surface d’attaque sur la sécurité et la confidentialité de ML. . Les modèles ML utilisent probablement des données privées et parfois sensibles, par exemple des informations spécifiques sur des personnes (noms, photos, adresses, préférences, etc.). De plus, l’architecture du réseau peut être volée. En réponse à ces risques, plusieurs méthodes d’anonymisation des données et de sécurisation des différentes étapes du processus de machine learning ont été et sont encore développées. En revanche, ces solutions ne sont que rarement appliquées.

Dans un contexte professionnel, les différentes étapes (formation/inférence) et les données nécessaires au fonctionnement du modèle peuvent être détenues par différentes parties prenantes, comme les clients et les entreprises. De plus, ils peuvent survenir ou être stockés à différents endroits (serveur du fournisseur de modèles, propriétaire des données, cloud, etc.). Le risque d’attaque peut être présent dans chacune de ces entités. Une méthode prometteuse pour obtenir un ML fiable afin de garantir la confidentialité est l’informatique confidentielle. Compte tenu de l’importance et des défis liés à la sécurité et à la confidentialité des modèles d’apprentissage automatique, une équipe de recherche anglaise a proposé un article sur la systématisation des connaissances (SoK). Dans cet article, les auteurs ont présenté le problème et proposé des solutions futures pour réaliser ML avec Confidential Computing pour le matériel, le système et le framework.

Les auteurs affirment que la technologie informatique confidentielle garantit un niveau d’assurance de confidentialité et d’intégrité lors de l’utilisation d’environnements d’exécution fiables (TEE) pour exécuter des codes sur des données. TEE est l’une des méthodes les plus récentes pour isoler et vérifier l’exécution du code à l’intérieur de la mémoire protégée, également appelée enclaves ou monde sécurisé, et loin des piles système privilégiées de l’hôte comme le système d’exploitation ou l’hyperviseur. Il est basé sur les clés difficiles : la racine de la mesure de la confiance, l’établissement et l’attestation de la confiance à distance, et l’exécution et la compartimentation du code digne de confiance. Les propriétaires de données/modèles doivent fournir secrètement leurs données/modèles au TEE de l’hôte non approuvé dans Confidential Computing-assisted ML. Pour être plus précis, les propriétaires préparent le modèle et/ou les données, effectuent une attestation à distance pour garantir l’intégrité du TEE distant, puis créent des canaux de communication sécurisés avec le TEE. La principale caractéristique offerte par l’informatique confidentielle est la séparation des enclaves/TEE de l’environnement non fiable avec une assistance matérielle.

Dans cet article du SoK, plusieurs recommandations ont été présentées. Les auteurs estiment que le concept de confidentialité n’est toujours pas clair par rapport à la sécurité ou à l’intégrité. Pour avoir une garantie de confidentialité bien fondée, il faut établir l’objectif de protection théoriquement fondé, par exemple, avec des informations de confidentialité différentielles. Ils insistent sur le fait que la partie en amont du pipeline ML, telle que la préparation des données, doit être protégée à tout prix car son absence a des effets néfastes inévitables. En incorporant une vérification basée sur TEE dans la signature de données, cela peut être accompli. L’ensemble de la protection du pipeline ML peut également bénéficier de plusieurs TEE/Conclaves. Il est nécessaire de rechercher attentivement les faiblesses de confidentialité et d’intégrité de divers composants ML (couches, cartes de caractéristiques, calculs numériques) avant de concevoir le cadre ML pour qu’il soit compatible avec les TEE et partitionnable pour les TEE hétérogènes. De plus, la gestion du système TEE pour protéger efficacement les composants ML les plus sensibles avec une priorité élevée est nécessaire.

Dans cet article, nous avons vu une nouvelle ère passionnante et stimulante liée à la protection du ML contre les fuites de confidentialité et les atteintes à l’intégrité à l’aide de techniques informatiques confidentielles. Bien que l’exécution des processus d’apprentissage et d’inférence ait fait l’objet de nombreuses études. Ils continuent de lutter contre le manque de ressources de confiance au sein des TEE. Les mesures de protection existantes garantissent uniquement la confidentialité et l’intégrité de l’étape de formation/inférence dans le pipeline ML complet, car ML nécessite des ressources beaucoup plus fiables. L’informatique confidentielle établit un environnement d’exécution plus fiable pour les opérations de ML en réalisant une racine de confiance basée sur le matériel. L’idée que cacher le processus de formation/inférence à l’intérieur de telles enclaves est la meilleure ligne de conduite doit être reconsidérée. Les futurs chercheurs et développeurs doivent mieux comprendre les défis de confidentialité qui sous-tendent le pipeline ML afin que les futures mesures de sécurité puissent se concentrer sur les composants essentiels.

This Article is written as a research summary article by Marktechpost Staff based on the research paper 'SoK: Machine Learning with Confidential Computing'. All Credit For This Research Goes To Researchers on This Project. Check out the paper.

Please Don't Forget To Join Our ML Subreddit


Mahmoud est chercheur doctorant en apprentissage automatique. Il détient également un
baccalauréat en sciences physiques et une maîtrise en
systèmes de télécommunications et de réseaux. Ses domaines actuels de
les recherches portent sur la vision par ordinateur, la prédiction boursière et
apprentissage. Il a produit plusieurs articles scientifiques sur la re-
l’identification et l’étude de la robustesse et de la stabilité des
réseaux.


Leave a Comment