L'exploitation des données du Trésor de la Langue Française (TLF)

Résumé : Depuis plus de vingt ans qu'on amasse à Nancy des données pour le Trésor de la langue française, le précieux coffre qui les renferme est plein à ras bords. Celui qui soulèverait le couvercle y dénombrerait plus de 150 millions de pièces, je veux dire de mots, et quelque 3 000 textes complets de la littérature française, du dix-septième siècle à nos jours. Certes ce trésor n'a pas été enfoui dans une cave souterraine, et la communauté scientifique connaissait son existence.
Mais les prestations de services extérieurs ne pouvaient être prioritaires tant que l'achèvement du TU n'était pas acquis.

Ce dialogue est maintenant possible. Les données de Nancy ont été intégrées dans une base de données qui est actuellement au monde non seulement la plus vaste, mais aussi la plus rapide et la moins coûteuse parmi celles qu'on peut. consulter dans le domaine linguistique et littéraire. Il ne nous appartient pas d'en détailler les principes et le mode opératoire et nous renvoyons le lecteur au créateur de cette base, J. Dendien. Bornons-nous à dire que ce puissant logiciel porte le nom de STELLA, et qu'il est accessible par le réseau TRANSPAC de tout point de l'hexagone, et même à l'extérieur des frontières. Le chercheur peut pêcher sans attendre n'importe lequel des 150 millions de mots du grand corpus, s'intéresser à une expression, à un écrivain, à un genre littéraire, à une époque, ou à tel ensemble de textes qu'il précise et corrige à sa guise, mais le plus souvent les ressources du langage d'interrogation sont si larges qu'il n'est pas nécessaire de recourir à des opérations ultérieures de complément.

L'essentiel est de montrer qu'avec STELLA une porte est largement ouverte pour des recherches ou des vérifications jusque là impossibles, que le point de vue soit sémantique, morphologique ou syntaxique.
Document type :
Journal articles
Complete list of metadatas

https://edutice.archives-ouvertes.fr/edutice-00000933
Contributor : Fabrice Roublot <>
Submitted on : Monday, October 17, 2005 - 5:02:08 PM
Last modification on : Tuesday, September 17, 2019 - 9:37:23 AM
Long-term archiving on : Tuesday, September 11, 2012 - 12:38:16 PM

Identifiers

  • HAL Id : edutice-00000933, version 1

Collections

TICE | EPI

Citation

Étienne Brunet. L'exploitation des données du Trésor de la Langue Française (TLF). Bulletin de l'EPI (Enseignement Public et Informatique), Association EPI 1987, pp.157-167. ⟨edutice-00000933⟩

Share

Metrics

Record views

265

Files downloads

111