Stratégies pour l'anonymisation systématique d'un corpus d'interactions plurilingues - Archive ouverte HAL Access content directly
Conference Papers Year : 2012

Stratégies pour l'anonymisation systématique d'un corpus d'interactions plurilingues

(1) , (1) , (2)
1
2

Abstract

Considering the textual interaction analysis field, researchers who want to share their corpus are facing many difficulties when they try to remove the marks identifying physical persons from their corpus. The European law suggests that such marks may be removed before any publication of the corpus. Many tools dedicated to online discussion analysis have been already developed in the Calico platform. They are language independent. Following this way, we propose here an interactive and systematic anonymisation process working without dictionary and being then available for any language. This process has been applied to a first multi-lingual corpus coming from the Galanet project. This paper emphasises the difficulties arising during this anonymisation process. We present the results of this experience. Beyond the substitution of identity marks, we propose two mining strategies that help to detect new lexical forms that may reveal personal information.
Dans le champ de l'analyse des interactions textuelles, les chercheurs désirant partager leurs corpus font face à de grandes difficultés pour en éliminer les marques d'identification des personnes physiques. La loi européenne suggère pourtant que ces marques soient soigneusement retirées avant toute publication. Dans la suite des outils de la plateforme Calico dédiée à l'analyse des interactions en ligne, nous proposons ici un procédé interactif d'anonymisation systématique, fonctionnant sans dictionnaire a priori et donc applicable à toute langue. Ce procédé a été appliqué à un premier corpus plurilingue issu de Galanet. Cet article souligne les difficultés de l'anonymisation et présente les premiers résultats de cette expérience. Au-delà de la transformation elle-même, nous proposons deux stratégies de fouille afin de détecter de nouvelles graphies pouvant révéler des données personnelles.
Fichier principal
Vignette du fichier
ReffayBlondelGiguet_complet.pdf (276.46 Ko) Télécharger le fichier
Origin : Files produced by the author(s)
Loading...

Dates and versions

edutice-00718390 , version 1 (16-07-2012)

Identifiers

  • HAL Id : edutice-00718390 , version 1

Cite

Christophe Reffay, François-Marie Blondel, Emmanuel Giguet. Stratégies pour l'anonymisation systématique d'un corpus d'interactions plurilingues. Intercompréhension, Jun 2012, Grenoble, France. pp.1-21. ⟨edutice-00718390⟩
380 View
462 Download

Share

Gmail Facebook Twitter LinkedIn More