Banques et bases de données

LES BANQUES DE DONNÉES DANS
LES DISCIPLINES LITTÉRAIRES

Pierre Muller
Institut National de Recherche Pédagogique
 

LES DIFFÉRENTS TYPES DE BANQUES UTILISÉES PAR LES CHERCHEURS

   Les chercheurs des disciplines dites littéraires, en particulier de lettres et d'histoire, utilisent de plus en plus les banques de données pour leurs recherches. Ces banques de données sont de divers types et sont accessibles sur différents supports qui en facilitent plus ou moins l'accès et la manipulation. On peut distinguer ainsi :

  • des banques de données bibliographiques, qui existent aussi dans les autres disciplines ;

  • des dictionnaires électroniques comme le grand Robert, disponible maintenant sur CD-ROM ;

  • des banques de données syntaxiques : le dictionnaire des verbes, constitué par l'équipe de Maurice GROSS, fournit pour chaque verbe l'ensemble des constructions syntaxiques dans lesquelles il peut figurer ;

  • des banques de données textuelles : en français, on dispose de la banque FRANTEXT, constituée par l'Institut national de la langue française, et qui comprend plusieurs milliers d'ouvrages consultables en ligne. Une version réduite – quoique comportant encore 250 ouvrages – devrait être prochainement disponible sur CD-ROM. La consultation de ce type de banques permet d'obtenir par exemple tous les contextes d'un ou plusieurs mots dans un corpus choisi, les index des textes et des traitements statistiques sur le vocabulaire ;

  • enfin il existe des banques de données plus complexes qui peuvent rassembler autour des textes différents types d'informations, et en particulier des images : ainsi le CD-ROM Perseus regroupe autour des textes de la littérature grecque des informations sur la civilisation.

   Sur ces banques de données, l'activité la plus courante est la consultation, mais les chercheurs peuvent aussi constituer eux-mêmes leurs propres banques pour les besoins de la recherche. De plus en plus d'étudiants saisissent les textes qui font l'objet de leurs mémoires de maîtrise ou de leurs thèses et effectuent sur ceux-ci des traitements automatiques. Ce travail est facilité par l'existence de logiciels fonctionnant sur micro-ordinateur.

   Ces activités sur les banques de données sont liées elles-mêmes à une évolution des méthodes scientifiques. Il faut noter d'abord une revendication scientifique plus grande de la part des disciplines littéraires qui se contentent de moins en moins d'une approche impressionniste des textes. D'autre part l'évolution récente de la linguistique rend nécessaire des inventaires exhaustifs et des traitements quantitatifs que l'ordinateur rend heureusement plus praticables que le relevé manuel. Considérer la grammaire d'une langue L comme « un mécanisme engendrant toutes les suites grammaticales de L et aucune des suites agrammaticales » laisse supposer que la langue peut être soumise à des traitements informatiques. Définir le sens d'un mot comme la somme de ses emplois suppose que l'on puisse disposer d'un stock d'exemples facilement et rapidement accessibles.

   Enfin, comme dans les « sciences dures », l'utilisation de l'informatique a créé pour les sciences humaines des débouchés industriels et on a vu depuis peu se développer ce qu'on appelle les industries de la langue dans lesquelles les banques de données jouent un rôle important. Citons en particulier leur utilisation pour la traduction automatique et pour la constitution de systèmes de documentation automatisée.

LES POSSIBILITÉS D'UTILISATION PÉDAGOGIQUE

   La prise en compte des banques de données dans l'enseignement primaire ou secondaire nécessite le même type d'évolution méthodologique constaté au niveau de la recherche. Or on observe précisément depuis quelques années que les programmes officiels font une place de plus en plus grande à des notions linguistiques et à des méthodes qui suggèrent le recours à ce type d'outils.

   Ainsi nous pouvons citer le complément aux Instructions et Programmes de 1985, qui suggère pour l'étude du vocabulaire « élaboration d'un champ sémantique (inventaire des différents sens et des cas d'emploi d'un même mot selon le lexique ou dans un texte) » et « élaboration d'un champ lexical (inventaire des différents mots du lexique ou d'un texte se rapportant d une même notion) » pour lesquels nous avons proposé des exemples d'exercices à partir de la liste des contextes d'un mot ou de l'index alphabétique du corpus, résultats fournis couramment par les logiciels de lexicométrie. On y trouve également plusieurs références à la grammaire de texte. Or ce type de grammaire exige à la fois un maniement de corpus plus vastes que ceux qui figurent dans les manuels scolaires et des procédures de recherche qui fournissent rapidement un volume de données suffisant pour traiter à peu près complètement une question grammaticale.

   En langues anciennes, les Instructions sont plus explicites encore dans l'évocation des usages possibles de l'informatique. Nous y lisons que pour l'acquisition du vocabulaire « le professeur utilise les listes de fréquence », ou encore que « dans un souci d'efficacité, pour chaque passage à traduire, il fait étudier les principaux champs lexicaux dont l'exploration pourra être facilitée à l'aide de logiciels appropriés ». Enfin, un paragraphe complet résume les différents usages qui peuvent être faits de l'ordinateur en langues anciennes : « des banques de données textuelles, utilisées à des fins littéraires, historiques, lexicales, grammaticales, stylistiques ou autres, peuvent rendre d'appréciables services. À partir d'un corpus constitué de textes figurant au programme et à l'aide de logiciels appropriés, les élèves peuvent, par exemple, enrichir plus efficacement leur vocabulaire en voyant les mots classés par ordre de fréquence et saisis dans leur contexte. Ils peuvent aussi étudier des champs lexicaux, des notions grammaticales, des procédés de style, des faits de civilisation. Ils peuvent encore procéder à des comparaisons fructueuses entre les oeuvres. »

   D'un strict point de vue pédagogique, l'usage des banques de données modifie le rapport de l'élève au savoir. Celui-ci n'est plus seulement acquis par l'enseignement magistral ni par la lecture, mais à travers une démarche active dans laquelle l'élève est en situation de recherche, formulant ses hypothèses de travail et les vérifiant par la consultation des différents traitements que lui offrent les logiciels. Ainsi se développe l'autonomie de l'élève en même temps que s'élabore une sorte de démarche expérimentale propre aux disciplines littéraires.

   Le travail sur un instrument commun à plusieurs disciplines favorise des relations interdisciplinaires dont on sait par ailleurs combien elles sont difficiles à organiser. Nous en avons fait l'expérience sur une étude commune en lettres et en histoire des textes de déclarations des droits de l'homme. Nous procédons actuellement de la même manière avec des textes argumentatifs.

   Cependant les avantages que l'on peut trouver à ce type d'outils ne sont pas accessibles d'emblée. Si l'on n'y prend pas garde, on peut même y rencontrer des inconvénients graves. Relever des éléments d'information successifs risque d'aboutir à une atomisation des connaissances si l'on ne possède pas une méthode pour en effectuer la synthèse. Naviguer sans fin à travers des océans de données, si l'on ne dispose pas d'un gouvernail et d'une boussole, peut conduire à la confusion mentale et faire de l'élève une réincarnation de l'autodidacte que Sartre nous montre dans La nausée en train de tourner interminablement les pages des dictionnaires. Un responsable de l'évaluation du projet Perseus note aussi la difficulté de maîtriser des données aussi vastes : « First, the Perseus materials are so vast that mastering the content to the depth and breadth required to use multiple databases is itself a challenge. Then, choosing the "best" images or passages from this corpus, accessing them, and linking them in the most effective manner to emphasize particular points call upon technical and pedagogical capabilities for which we currently have no models. »

   Quoique plus effacé en apparence, le rôle de l'enseignant reste donc prédominant. Il lui appartient en particulier de définir et de proposer aux élèves des méthodes d'utilisation pour qu'ils sachent le type de question qu'ils peuvent poser aux logiciels et la manière d'analyser et de synthétiser les résultats qu'ils obtiennent. Il lui revient d'assurer la progressivité des apprentissages pour atteindre le stade où une autonomie assez large sera possible.

   Cette progressivité peut être obtenue en enchaînant les différents contextes de classe dans lesquels se réalise l'insertion des banques de données :

  • le cours magistral, qui constitue une initiation au fonctionnement des logiciels et où l'enseignant peut avoir recours à la consultation de banque de données à certains moments comme illustration de son propos, sans être obligé de déplacer sa classe dans une salle spécialisée ;

  • les séances de travaux pratiques, qui exigent des classes dédoublées ; malheureusement ces séances n'existent pas le plus souvent dans les horaires des disciplines littéraires. On peut espérer que les modules méthodologiques prévus dans la réforme des lycées permettront de généraliser ce type de séances ;

  • les projets d'action éducative ou les ateliers de pratique envisagés par la réforme qui peuvent s'organiser autour de projets personnels ou liés à l'actualité ;

  • le centre de documentation : beaucoup d'activités de consultation peuvent s'effectuer en dehors de la présence de l'enseignant, car elles font partie du travail de préparation des exercices donnés aux élèves.

   Mais l'utilisation des banques de données se heurte ici à une difficulté d'ordre administratif : il y a actuellement peu de possibilités de dédoubler les classes dans les disciplines littéraires. Elle rencontre également des problèmes liés à la disponibilité du matériel, des logiciels et des données.

LES OUTILS MATÉRIELS ET LOGICIELS

1. Le matériel

   Des exigences spécifiques correspondent à l'utilisation de banques de données sur micro-ordinateurs. La manipulation de grandes quantités de données nécessite en particulier une place importante en mémoire centrale et sur disque, et des temps d'accès suffisamment rapides.

2. Les logiciels

   Les logiciels des centres de recherche fonctionnent généralement sur des machines très puissantes qui n'existent pas dans les établissements scolaires. Conçus et utilisés le plus souvent par des spécialistes, ils ne répondent pas aux exigences de convivialité et de facilité d'emploi que réclament les enseignants et les élèves. Il a donc fallu concevoir et réaliser des logiciels nouveaux.

3. Les données

   Les banques de données ne sont pas non plus nécessairement adaptées aux élèves, soit parce qu'elles offrent des masses d'informations trop importantes, soit parce qu'elles sont peu accessibles – difficulté liée en particulier au coût des communications téléphoniques –, soit encore parce qu'elles devraient être enrichies d'informations, donc de codages supplémentaires. Le CD-ROM pourrait résoudre partiellement ces problèmes, à condition que les données ne soient pas verrouillées et qu'il soit possible de les copier et de les manipuler pour effectuer des traitements non prévus par les concepteurs.

LES PROBLÈMES DE FORMATION DES ENSEIGNANTS

   La formation des enseignants doit prendre en compte les trois aspects précédents. Pour utiliser les logiciels existants, les enseignants ont besoin de connaissances qui ne leur ont généralement pas été fournies au cours de leurs études universitaires et qu'il est urgent d'introduire rapidement au niveau de la formation initiale :

  • connaissances techniques générales et propres aux logiciels utilisés ;

  • connaissances scientifiques complémentaires dans la discipline, qui sont plus importantes qu'on ne croit, car elles sont liées au choix même des outils. Citons, entre autres, pour les futurs professeurs de lettres des domaines tels que la lexicologie, la lexicométrie, la grammaire de texte ;

  • connaissances pédagogiques sur les conditions d'utilisation des outils informatiques et sur les méthodes qu'ils impliquent.

PROPOSITIONS DE SOLUTIONS

1. La politique d'équipement

   L'utilisation régulière par les élèves nécessite un nombre de machines bien plus important que les équipements actuels. Il faut d'autre part diversifier les équipements dans trois directions : pour les utilisations individuelles des machines possédant déjà des capacités minimales, pour l'utilisation en classe entière des dispositifs de visualisation spécifiques, enfin des machines plus puissantes pour les centres de documentation permettant d'avoir accès à des ressources importantes.

2. La diffusion des logiciels et des données

   Les banques de données et les logiciels qui les traitent n'ont pas connu un développement important dans le monde de l'édition privée, peut-être parce qu'ils n'offrent pas une rentabilité importante. Une action volontariste de l'État est donc nécessaire en ce domaine pour faciliter la conception, la production et la diffusion.

3.La formation des enseignants

   Il faut la prévoir le plus rapidement possible au niveau de la formation initiale, lorsque les étudiants sont encore disponibles et avant que ne se créent des habitudes. Cette formation ne doit pas se limiter à l'apprentissage de techniques informatiques, mais prendre, en compte les domaines nouveaux de la discipline qui sont susceptibles d'utiliser cet outil. C'est précisément en montrant aux futurs enseignants l'intérêt que l'informatique peut présenter pour leur discipline – et l'utilisation de banques de données en est peut-être l'exemple le plus caractéristique dans les disciplines littéraires –, qu'on les sensibilisera le mieux à son utilisation.

Paru dans L'intégration de l'informatique dans l'enseignement et la formation des enseignants ; actes du colloque des 28-29-30 janvier 1992 au CREPS de Châtenay-Malabry, édités par Georges-Louis Baron et Jacques Baudé ; coédition INRP-EPI, 1992, p. 156-162.

BIBLIOGRAPHIE

Les banques de données et la recherche

Lafon Pierre. Dépouillements et statistiques en lexicométrie, Genève, Slatkine-Champion, 1984.

Muller Pierre. Vocabulaire et rhétorique dans Études socialistes de Jean Jaurès, thèse de doctorat, Université Paris III, 1991, 603 p.

Neuman Delia. « Evaluating Evolution : Naturalistic Inquiry and the Perseus Project », Computers and the Humanities, volume 25, n° 4, August 1991, p. 239-246.

Salem André, Pratique des segments répétés, Paris, INALF-Klincksieck, 1987.

Tournier Maurice. « D'où viennent les fréquences de vocabulaire ? La lexicométrie et ses modèles », MOTS n° 1, octobre 1980, p. 189-209.

Applications pédagogiques

Utilisations pédagogiques des banques de données, Paris, Association Enseignement Public et Informatique, 1984, 208 p.

Des textes avec... ou sans ordinateur, Paris, Institut National de Recherche Pédagogique, 1984, 128 p. (coll. Rencontres Pédagogiques).

Muller Pierre (sous la direction de), Informatique et étude de textes, Paris, INRP, 1989, 140 p. (coll. Rapports de recherches).

Banques de données et logiciels pédagogiques disponibles

Lexicométrie (Larousse).

Collection Logitexte (CNDP et INRP), cinq volumes parus :

  • PISTES, pour une investigation systématique des textes,
  • Analyses des Déclarations des Droits de l'Homme,
  • Analyses des Fleurs du Mal,
  • Analyses du Tartuffe,
  • Analyses de textes sur la guerre en 1915.

Le grand Robert sur CD-ROM.

___________________
Association EPI