Des ensembles de données synthétiques pourraient aider à protéger la confidentialité

- Feb 20, 2019-

Les réseaux synthétiques peuvent augmenter la disponibilité de certaines données tout en protégeant la vie privée des individus ou des institutions, selon un statisticien de Penn State.


"Mon principal intérêt est de développer une méthodologie qui permettrait un partage plus large des données confidentielles de manière à faciliter la découverte scientifique", a déclaré Aleksandra Slavkovic, professeur de statistique et doyenne associée aux études supérieures, Eberly College of Science, Penn State. "Pouvoir partager des données confidentielles avec un risque quantifiable minime de découverte d'informations sensibles tout en garantissant la précision et l'intégrité des statistiques est l'objectif".


Slavkovic a trouvé des solutions à ce problème de confidentialité des données grâce à des collaborations interdisciplinaires, en particulier avec des informaticiens et des spécialistes des sciences sociales. Ses recherches portent sur diverses données, notamment les données de réseau qui capturent des informations sur les relations entre des entités telles que des individus ou des institutions. Elle a exposé ses approches pour fournir des réseaux synthétiques qui répondent à une notion de confidentialité différentielle aujourd'hui (16 février) lors de la réunion annuelle de l'Association américaine pour l'avancement des sciences en 2019 à Washington, DC


La confidentialité différentielle fournit une garantie mathématiquement prouvable du niveau de perte de confidentialité des individus.


Les scientifiques veulent avoir accès aux données collectées par d'autres pour leurs recherches, mais un tel accès pourrait également compromettre la vie privée des personnes, même après la suppression des données dites personnellement identifiables.


"Une abondance de données auxiliaires est le principal responsable", a déclaré Slavkovic. "Avec les progrès méthodologiques et technologiques en matière de collecte de données et de couplage des enregistrements, un accès plus facile à diverses sources de données pouvant être liées à un ensemble de données, et aux obligations des agences de financement en matière de partage des données, les risques pour la confidentialité des données augmentent. les solutions de gestion des atteintes à la vie privée sont essentielles pour permettre des découvertes scientifiques solides. "


Les informations disponibles publiquement provenant d'un essai de médicament sur un médicament contre le VIH, par exemple, indiqueraient qui faisait partie du groupe de traitement et qui faisait partie du groupe de contrôle. Le groupe de traitement ne comprendrait que les personnes séropositives et, même si les propriétaires de données ont caché des informations personnelles dans cet ensemble de données, des informations permettant de l'identifier resteraient. Étant donné que de nombreuses informations sont aujourd'hui disponibles en ligne sur les médias sociaux et dans d'autres ensembles de données, il est possible de relier les points et d'identifier les personnes, révélant ainsi potentiellement leur statut VIH.


"Les techniques pour relier deux ensembles de données, selon les registres des électeurs et les données de l'assurance maladie, se sont grandement améliorées", a déclaré Slavkovic. "Latanya Sweeny (maintenant à Harvard) a montré qu’en liant ce type de données, on pouvait identifier 87% des personnes recensées dans le recensement américain de 1990 à partir de leur date de naissance, sexe et sexe code postal. Plus récemment, les chercheurs ont utilisé des tweets et les métadonnées Twitter associées pour montrer qu’ils pouvaient identifier les utilisateurs avec une précision de 96,7%. "


Slavkovic note que ce ne sont pas seulement les personnes ou les institutions dont les données sont contenues dans les bases de données, mais que les personnes extérieures à la base de données peuvent également être victimes d'atteinte à la vie privée, directement ou par association. Les liens entre les informations contenues dans un ensemble de données et les informations sur les médias sociaux pourraient conduire à une grave atteinte à la vie privée - quelque chose comme le statut VIH ou l'orientation sexuelle pourrait avoir de graves répercussions si elle était révélée.


Bien que la vie privée soit importante, les ensembles de données collectés constituent une source d'informations essentielle pour les chercheurs. Actuellement, dans certains cas, lorsque les données sont extrêmement sensibles, les chercheurs doivent se rendre physiquement dans les référentiels de données pour effectuer leurs recherches, rendant la recherche plus difficile et coûteuse.


Slavkovic s'intéresse aux données du réseau. Informations qui montrent l'interconnexion des personnes ou des institutions - les nœuds - et les connexions entre les nœuds. Son approche consiste à créer des jeux de données réseau légèrement modifiés et mis en miroir, avec quelques-uns des nœuds déplacés, des connexions décalées ou des contours modifiés.


"L'objectif est de créer de nouveaux réseaux qui répondent aux exigences de confidentialité différenciées et rigoureuses tout en capturant la plupart des fonctionnalités statistiques du réseau d'origine", a déclaré Slavkovic.


Ces ensembles de données synthétiques pourraient suffire à certains chercheurs pour satisfaire leurs besoins en matière de recherche. Pour d'autres, il suffirait de tester leurs approches et leurs hypothèses avant de devoir se rendre sur le site de stockage des données. Les chercheurs pourraient tester le code, effectuer des recherches exploratoires et peut-être une analyse de base en attendant l'autorisation d'utiliser les données d'origine sur son site de référentiel.


"Nous ne pouvons pas satisfaire toutes les demandes d'analyse statistique avec le même type de données modifiées", a déclaré Slavkovic. "Certaines personnes auront besoin des données d'origine, mais d'autres pourraient aller très loin avec des données synthétiques telles que les réseaux synthétiques."

Une paire de:Nouvelle technologie de fibre optique pourrait permettre à 100 fois plus rapide Internet Un article:Cat6 vs Cat7 vs Cat8: quelle est la différence?