L'exploitation des données du Trésor de la Langue Française (TLF) - archive-EduTice - Education et technologies de l'information et de la communication Accéder directement au contenu
Article Dans Une Revue Bulletin de l'EPI (Enseignement Public et Informatique) Année : 1987

L'exploitation des données du Trésor de la Langue Française (TLF)

Étienne Brunet

Résumé

Depuis plus de vingt ans qu'on amasse à Nancy des données pour le Trésor de la langue française, le précieux coffre qui les renferme est plein à ras bords. Celui qui soulèverait le couvercle y dénombrerait plus de 150 millions de pièces, je veux dire de mots, et quelque 3 000 textes complets de la littérature française, du dix-septième siècle à nos jours. Certes ce trésor n'a pas été enfoui dans une cave souterraine, et la communauté scientifique connaissait son existence.
Mais les prestations de services extérieurs ne pouvaient être prioritaires tant que l'achèvement du TU n'était pas acquis.

Ce dialogue est maintenant possible. Les données de Nancy ont été intégrées dans une base de données qui est actuellement au monde non seulement la plus vaste, mais aussi la plus rapide et la moins coûteuse parmi celles qu'on peut. consulter dans le domaine linguistique et littéraire. Il ne nous appartient pas d'en détailler les principes et le mode opératoire et nous renvoyons le lecteur au créateur de cette base, J. Dendien. Bornons-nous à dire que ce puissant logiciel porte le nom de STELLA, et qu'il est accessible par le réseau TRANSPAC de tout point de l'hexagone, et même à l'extérieur des frontières. Le chercheur peut pêcher sans attendre n'importe lequel des 150 millions de mots du grand corpus, s'intéresser à une expression, à un écrivain, à un genre littéraire, à une époque, ou à tel ensemble de textes qu'il précise et corrige à sa guise, mais le plus souvent les ressources du langage d'interrogation sont si larges qu'il n'est pas nécessaire de recourir à des opérations ultérieures de complément.

L'essentiel est de montrer qu'avec STELLA une porte est largement ouverte pour des recherches ou des vérifications jusque là impossibles, que le point de vue soit sémantique, morphologique ou syntaxique.
Fichier principal
Vignette du fichier
b47p159.pdf (966.24 Ko) Télécharger le fichier

Dates et versions

edutice-00000933 , version 1 (17-10-2005)

Identifiants

  • HAL Id : edutice-00000933 , version 1

Citer

Étienne Brunet. L'exploitation des données du Trésor de la Langue Française (TLF). Bulletin de l'EPI (Enseignement Public et Informatique), 1987, 47, pp.157-167. ⟨edutice-00000933⟩
151 Consultations
110 Téléchargements

Partager

Gmail Facebook X LinkedIn More