5362 articles – 2585 Notices  [english version]
Fiche détaillée
Intercompréhension, Grenoble : France (2012)
Liste des fichiers attachés à ce document : 
PDF
ReffayBlondelGiguet_complet.pdf(306.6 KB)
Stratégies pour l'anonymisation systématique d'un corpus d'interactions plurilingues
Christophe Reffay1, François-Marie Blondel1, Emmanuel Giguet2
(07/2012)

Dans le champ de l'analyse des interactions textuelles, les chercheurs désirant partager leurs corpus font face à de grandes difficultés pour en éliminer les marques d'identification des personnes physiques. La loi européenne suggère pourtant que ces marques soient soigneusement retirées avant toute publication. Dans la suite des outils de la plateforme Calico dédiée à l'analyse des interactions en ligne, nous proposons ici un procédé interactif d'anonymisation systématique, fonctionnant sans dictionnaire a priori et donc applicable à toute langue. Ce procédé a été appliqué à un premier corpus plurilingue issu de Galanet. Cet article souligne les difficultés de l'anonymisation et présente les premiers résultats de cette expérience. Au-delà de la transformation elle-même, nous proposons deux stratégies de fouille afin de détecter de nouvelles graphies pouvant révéler des données personnelles.
1 :  STEF – Sciences Techniques Éducation Formation
2 :  GREYC – Groupe de Recherche en Informatique, Image, Automatique et Instrumentation de Caen
Anonymisation ; Données personnelles ; Corpus plurilingue ; Partage de données