Anonymisation semi-automatique de corpus d'interactions éléments pour une méthode interactive - Archive ouverte HAL Access content directly
Conference Papers Year : 2012

Anonymisation semi-automatique de corpus d'interactions éléments pour une méthode interactive

(1) , (1) , (1) , (2)
1
2

Abstract

In order to ease research data sharing and scientific comparison, researchers need appropriate methods and tools to anonymise their huge corpora of interaction. We first draw the legal context and present the stakes of anonymisation. We emphasise the subtleties that avoid complete automation of the anonymisation process. The target user-researcher will keep the control of the anonymisation process with the method we propose here. It is mainly based on two processes: marking and mining presented in details in this article. The whole method has been applied to two very different corpora. Preliminary evaluation of these first tests is given in the discussion and gives the floor to interesting perspectives for the method and its implementation on the Calico platform.
Pour faciliter le partage de données de recherche, et donc la comparaison, il est indispensable que les chercheurs puissent disposer de méthodes et d'outils permettant d'anonymiser les grands volumes d'interactions de leurs corpus. Nous rappelons le cadre légal et les enjeux de l'anonymisation avant de montrer les difficultés de son automatisation. La méthode proposée ici laisse au chercheur-utilisateur visé, le contrôle du processus de transformation de son corpus. C'est une méthode interactive, systématique et applicable à des corpus écrits en toutes langues. Elle est basée sur un cycle de marquage et de fouille détaillé dans cet article et appliqué à deux corpus de forums très différents. Les résultats de ces premières applications sont présentés et discutés pour envisager de nouvelles améliorations à cette méthode et une mise en œuvre comme outil de la plateforme Calico.
Fichier principal
Vignette du fichier
Reffay_et_al_JOCAIR2012_complet.pdf (432.84 Ko) Télécharger le fichier
Origin : Files produced by the author(s)
Loading...

Dates and versions

edutice-00720211 , version 1 (24-08-2012)

Identifiers

  • HAL Id : edutice-00720211 , version 1

Cite

Christophe Reffay, François-Marie Blondel, Stéphane Allaire, Emmanuel Giguet. Anonymisation semi-automatique de corpus d'interactions éléments pour une méthode interactive. JOurnées Communication et Apprentissage Instrumentés en Réseau, Sep 2012, Amiens, France. ⟨edutice-00720211⟩
332 View
345 Download

Share

Gmail Facebook Twitter LinkedIn More