Représentation et utilisation de connaissances dans unsystème d'aide à l'apprentissage lexical




Représentation et utilisation de connaissances dans un système d'aide à l'apprentissage lexical



Thierry SELVA
LRL - Département de Linguistique
Université Clermont 2
34 avenue Carnot
63000 Clermont-Ferrand
e-mail :
selva@lrl.univ-bpclermont.fr

Fabrice ISSAC
LIPN - URA 1507
Université Paris-Nord
avenue J.B. Clément
93430 Villetaneuse
e-mail :
fabrice.issac@ura1507.univ-paris13.fr






Résumé : Nous présentons dans cet article lamanière dont sont structurées et utilisées lesinformations dans un environnement informatique d'aide à l'acquisitionlexicale du français langue seconde : AlexiA. Le système proposeune aide en compréhension et en production, ce qui permet àl'apprenant de consolider et de valider le vocabulaire étudié.Nous avons organisé les données lexicales du système,d'une part en fonction des travaux en psycholinguistique sur le lexique mental,et d'autre part en fonction des travaux en linguistique appliquée surl'acquisition/apprentissage. Nous avons utilisé le formalisme desgrammaires d'arbres adjoints pour représenter les donnéessyntaxiques. Ce système est développé sur une plateformeMacintosh à partir d'Hypercard et comprend différents modules enProlog et en C.

Mots clés : ALAO, langue seconde, apprentissage, lexique,collocation, lexique mental, TAG


1. Introduction

Jusqu'à présent, le domaine de l'acquisition des langues aeu tendance à privilégier la grammaire par rapport au lexique etle mot était relégué au second plan. Toutefois depuisquelques années les chercheurs redécouvrent que pour s'exprimercorrectement dans une langue étrangère une bonne connaissance dulexique est importante. En effet, de plus en plus d'études en didactiqueet en psycholinguistique soulignent l'importance du lexique non seulement dansla maîtrise mais aussi dans l'apprentissage d'une langueétrangère. Nous présentons, dans cet article, lesdifférentes bases de connaissances utilisées dans unenvironnement d'aide à l'apprentissage lexical individualiséappelé AlexiA (Chanier et al. 1995). Celui-ci propose une aide lexicalepersonnalisée en production et en compréhension. Ilconsidère à la fois les stratégies standard d'accèslexicaux, celles décrites par les travaux en psycholinguistique, pourmodéliser la base de données lexicales, et cellesemployées par l'utilisateur. Le système propose égalementdes activités lexicales pour l'aide à la rétentionbasées sur le lexique étudié par l'apprenant lors de sestravaux de compréhension ou/et de production. De plus, il permetà l'utilisateur de structurer ses propres connaissances lors de laconstruction et de l'utilisation d'un dictionnaire personnel. Le lexique telque nous l'envisageons ne se restreint pas aux mots simples mais englobe aussiles collocations et les cooccurrences[1] quitiennent une place importante dans la maîtrise d'une langue. En effet,l'utilisation de ces expressions en contexte s'avère délicatepour des non-natifs tandis que les natifs y ont souvent recours. L'emploi parun apprenant de collocations est un bon indice de ses compétenceslangagières. L'apprentissage du lexique n'est pas une tâche simplequi peut être effectuée en une seule phase. Car connaître unmot c'est non seulement le reconnaître visuellement, savoir le prononcer,connaître ses propriétés morphologiques, syntaxiques etsémantiques, mais aussi connaître le contexte dans lequel ils'emploie et les fonctions pragmatiques qu'il remplit. AlexiA comporteplusieurs modules et plusieurs bases de connaissances. L'environnement utiliseprincipalement trois bases de connaissances. Un corpus de textes surlequel l'apprenant va travailler. Un dictionnaire électroniquegénéral qui contient les ressources lexicales :propriétés morphologiques, syntaxiques, pragmatiques etsémantiques ainsi que des associations entre mots. Et une grammairelexicale à partir de laquelle sont extraites les informationssyntaxiques. Ces bases sont utilisées dans quatre modulesdifférents. Un module compréhension, où l'apprenantétudie le vocabulaire à partir d'un textesélectionné. Un module de gestion du dictionnairepersonnel qui permet à l'apprenant d'organiser lui-même lesinformations sur le vocabulaire qu'il a étudié. Un modulemodèle de l'apprenant qui contient des informations sur lestâches qu'il a effectuées. Enfin, un module activitéslexicales qui lui permet de pratiquer des exercices favorisantl'acquisition, certains d'entre eux ayant recours à un analyseursyntaxique.

2. Corpus de textes

Notre travail porte sur le français courant et actuel, celui quetout natif possède et utilise pour communiquer. Afin d'obtenir uneanalyse fine des données, nous avons délimité un champsémantique, tous les textes du corpus ayant trait au travail, àl'emploi et au chômage. En principe, tout natif, quel que soit son niveaud'éducation ou son niveau social, maîtrise ce champ. Bien entendu,cela suppose que l'apprenant soit un adulte. Le corpus a étéconstitué en recueillant des textes du français contemporain(livres, quotidiens, revues générales ouspécialisées, etc...) en relation avec le champ sémantiqueétudié. Il est essentiellement constitué de textesécrits mais comporte également quelques interviews afin d'avoirdes données sur le français oral. Ce corpus a servi àdéfinir les mots caractéristiques du domaine, à extraireles collocations, à mener des études linguistiques sur ces motset à les illustrer par des exemples tirés des textes. De plus ilva permettre de définir des activités lexicales pour l'apprenant.Une fois ces textes numérisés et mis sous formatélectronique, nous leur avons appliqué un traitement statistiquedestiné à recueillir les mots les plus courants,caractéristiques du champ sémantique. Pour cela, nous avonsétabli des listes de mots classés par fréquence et avonsenlevé les mots grammaticaux et les verbes courants ("avoir","être", "faire","mettre", etc.) que l'on retrouve dans tous les textes.Puis nous avons isolé une soixantaine de mots qui nous paraissaientdécrire le champ : les mots pôles. En ce qui concerne lescollocations, elles ont été introduites à partie des motspôles (un mot pôle fait toujours partie d'une collocation) soitmanuellement, soit par le résultat d'un deuxième traitementstatistique. A partir des mots pôles et de leurs collocations, on aajouté des dérivés, des synonymes et antonymes, desactants ainsi que des dérivés sémantiques (reliésaux mots pôles par des relations sémantiquesprédéfinies). On a ainsi constitué un lexique de quelques250 entrées de base.

3. Dictionnaire général

3.1. Organisation du lexique mental

Lors de la production d'un discours, le choix d'un mot, ou d'uneexpression, se fait à un rythme très soutenu avec un tauxd'erreur très faible[2]. Desexpériences en psycholinguistique sur l'organisation du lexique mentalmontrent que les relations entre les éléments du lexique sont dedeux types. Il existe des relations intrinsèques, oucatégorielles, qui contiennent des informations linguistiques surl'unité lexicale elle-même, et des relations associatives quiregroupent les unités dont la fréquence d'apparition dans unmême contexte est importante ("ouvrier" avec "usine" ou "travail")(Bogaards 1994). On peut décomposer les relations intrinsèques enrelations sémantiques comme la synonymie ou l'antonymie, morphologiques,c'est-à-dire du domaine de la dérivation ("compétent","compétence", "incompétence"), et phonologiques, pour les motscommençant ou se terminant par les mêmes phonèmes. Lesrelations entre les "items mentaux" forment ainsi un réseau dans lequelles noeuds ne sont pas les mots eux-mêmes, mais leurs sens particuliers.Quant à la collocation, il apparait probable qu'elle soit stockéenon pas comme une association de mots, mais comme une seule unitéà part entière.

3.2. Informations lexicales

Dans la base lexicale, le lexème (c'est-à-dire soit le motsimple, séparé par deux blancs, soit l'expression) estcaractérisé par deux représentations : une interne et uneexterne. La représentation externe est celle qui est vue etmanipulée par l'utilisateur à partir de liens hypertexte dansl'interface : il s'agit de la forme graphique classique mise sous formecanonique suivie de la catégorie grammaticale entre parenthèses.La représentation interne, utilisée dans le codage de la baselexicale, est une représentation arbitraire unique, associéeà un lexème désambiguïsé par sacatégorie, utilisée par les différents algorithmes dusystème et invisible pour l'utilisateur. Pour chaque lexème, labase lexicale contient la graphie, la catégorie grammaticale, la ou lesdéfinitions, le genre et le nombre de la forme canonique, le niveau delangue, les fréquences[3], laconstruction syntaxique, les exemples en contexte, les cooccurrences etcollocations et les liens sémantiques avec d'autres mots ou expressions.L'entrée du dictionnaire est considérée sur deux niveaux :l'entrée polysémique et l'entrée univoque,c'est-à-dire l'entrée prise dans un de ses sens particulier. Dansla représentation interne, l'entrée univoque est une fonction etest désambiguïsée par un indice. La représentationexterne est repérée par un numéro de sens. Lesinformations générales seront associées àl'entrée polysémique (la catégorie, le genre et le nombre,la représentation graphique ainsi que la fréquence[4] ). Par contre, les informations comme la définition,les exemples, le niveau de langue et la construction syntaxique seront propresà un sens de l'entrée. Les définitions sontinspirées du Collins Cobuild (Collins 1994). Contrairement aux autresdictionnaires classiques, ce sont des phrases, ce qui permet d'indiquer demanière fluide et directe une foule de renseignements concernant le motcomme par exemple les structures grammaticales ou les informations de contexteet d'usage. Pour un verbe, ce procédé permet d'exprimerfacilement des contraintes sur le sujet (plus difficile à rendre compteavec les définitions plus traditionnelles). Les niveaux de langueregroupent plusieurs registres ; on retrouve la distinction formel-familierainsi que les registres littéraire, technique, écrit etparlé. Les exemples sont tirés autant que possible ducorpus. Les entrées sont repérées grâce à unconcordanceur[5] et le sens de l'entréedans l'exemple est déterminé manuellement. Le corpus,représentatif d'un champ sémantique donné, peut ne paslivrer tous les sens d'une entrée. Dans ce cas, l'exemple estinventé.

3.3. Réseau lexical

Pour que l'apprenant accède aux unités de la base lexicalede manière naturelle, celle-ci peut être utilisée etvue sous forme d'un réseau sémantique. L'entrée, pourvuede tous ces attributs, est reliée à d'autres par des lienssémantiques dans un réseau lexical. Les noeuds de ceréseau sont toujours des entrées univoques. Cependant, ledictionnaire ne couvrant pas toute la langue et étant donc incomplet,certains noeuds ne seront pas décrits en tant qu'entrée. Ils sontsimplement cités et considérés dans leur dimensionpolysémique. Ces sous-réseaux sémantiques autour d'uneentrée pourront être visualisés à l'écran.Cela permet d'une part, de faciliter la circulation parmi lesdifférentes entrées, et d'autre part de pouvoir les comparer lesunes par rapport aux autres. Ainsi on peut distinguer clairement, notammentdans le cas des synonymes, les informations qui les différencient (parexemple le niveau de langue ou les types de synonymie). Parmi les lienssémantiques, on retrouve les classiques quasi-synonymie, hyponymie,hyperonymie, synonymie intersective et antonymie. On a aussi des relationsactancielles (agent, patient, lieu, manière, résultat,etc.). De plus, on utilise les fonctions lexicales les plus courantes tellesqu'elles ont été définies dans le DEC (Mel'cuk 1992)(magn, oper, anti, incep, fin, cont, bon, etc.). Outre ces lienssémantiques, les entrées sont aussi liées par le mot ;c'est le cas des cooccurrences dont la base est une entrée dudictionnaire (ex "travailler" et "travailler comme une bête" sontreliées par le mot "travailler" et par la fonction magn qui estun intensificateur). Cela permet de retrouver les collocations à partird'un des mots la constituant.

Ces fonctions lexicales, présentes seulement dans le DEC, ont unrôle très important notamment en production. A partir d'un mot etd'un lien sémantique exprimé par la fonction, on produit un autremot. C'est là tout l'intérêt de la théorie Sens-Texte.

3.4. Consultation du dictionnaire

L'interface a été réalisée en HyperCard surMacintosh. Les ressources lexicales sont pour l'instant en Prolog tout commeles programmes d'accès au lexique. Hypercard et Prolog communiquent aumoyen d'Apple Events. On utilise beaucoup les liens hypertexte lorsque lesinformations citées font référence à desentrées de la base lexicale. En cliquant dessus, on parvient àl'entrée sélectionnée. L'interface est constituéed'une série de cartes organisées hiérarchiquement (Figure1). On y circule au moyen de boutons toujours présents qui font monterou descendre dans la hiérarchie.

Figure 1 : Hiérarchie des cartes du dictionnairegénéral

Lorsqu'on accède au dictionnaire général,on arrive sur la liste des entrées du dictionnaire. L'ajout de lacatégorie entre parenthèses permet de distinguer un premierniveau d'homonymie entre mots de catégories syntaxiquesdifférentes (par ex : bûcher (v) et bûcher (n)). Quant auxautres homonymes, qui ont perdu le lien sémantique qui les unissaientjadis (par ex : "contracter une maladie" et "contracter un muscle"), unefenêtre intermédiaire qui contient les homonymes et une rapidedescription sémantique, permet de faire la différence.L'apprenant sait alors de manière claire quel est le mot quil'intéresse et dont il va consulter les informations.

Une fois cette étape optionnelle franchie, s'offrent àlui deux possibilités : soit l'entrée sélectionnéepossède des collocations (ex "petit boulot" pour "boulot") et alors, surla même carte, s'affiche une liste de collocations (et de cooccurrences)ayant l'entrée sélectionnée en commun. Il faut alorschoisir une collocation ou tout simplement le mot lui-même pour arriverà la carte des définitions. Soit l'entrée n'enpossède pas et on passe directement à la carte desdéfinitions. Le point important est que l'on présente lescollocations tout de suite, contrairement aux dictionnaires classiques qui lescitent dans l'article du mot de base[6] (quel'on a d'ailleurs parfois du mal à déterminer). La liste descollocations permet de voir toutes les expressions dans lesquellesl'entrée est utilisée.

La carte des définitions permet de connaître les différentssens d'une unité lexicale et donc d'en choisir un. Lorsqu'on yaccède, on obtient tout d'abord les informations relatives àl'entrée polysémique : catégorie, genre, nombre etfréquence. On obtient ensuite la liste des définitionscorrespondant aux sens. Il faut en sélectionner une pour avoiraccès aux exemples, aux constructions syntaxiques, au niveau de langueet aux synonymes, antonymes, collocations, actants, dérivéssémantiques et syntaxiques. Ces dernières informations sontprésentées sur quatre cartes qui sont au même niveauhiérarchique. On les parcourt de manière circulaire et àchaque carte, la flèche qui remonte d'un niveau donne accèsà la carte des définitions. La carte des synonymes et antonymesindique aussi leur définition et leur niveau de langue (lorsque cesinformations figurent dans la base lexicale). Cela permet de bien saisir lesnuances entre les mots. Des boutons radios permettent de choisir le type desynonymie ou d'antonymie (exacte, plus large, plus étroite,intersective). La carte des actants les présente en indiquant larelation d'actance. Quant aux dérivés syntaxiques, on lesprésente en s'appuyant sur la structure syntaxique du verbeassocié. Les deux dernières cartes indiquent les lienssémantiques qui unissent les collocations et les dérivéssémantiques avec l'entrée. Ces liens sont présentéssous forme de fonctions lexicales expliquées et illustrées parune aide.

Cette fragmentation et cette structuration de l'information relative àune entrée (présentation par cartes hiérarchisées)permet à l'apprenant d'une part, de bien avoir conscience du typed'information qu'il visualise et d'autre part, d'avoir la liberté dechoisir le type d'information qu'il veut consulter. Dans les dictionnairesclassiques, les informations, bien que structurées, sontprésentées en même temps et l'on a sous les yeux àla fois celles qui nous sont utiles comme celles, souvent bien plus nombreuses,qui ne nous intéressent pas.

4. Module compréhension

L'apprenant a à sa disposition un corpus de textes pour lequel unprogramme de consultation a été créé.L'accès à un texte peut se faire à partir d'une recherchepar titre, par mot-clé, par registre ou par référence del'article. Lors de l'étude du texte choisi, l'apprenant peut àtout moment accéder au dictionnaire général. Ledictionnaire personnel est aussi accessible à tout moment, soit pour leconsulter, soit pour l'augmenter. Il a aussi la possibilité desélectionner une phrase ou un groupe de mots afin d'en obtenir, par lebiais de l'analyseur syntaxique TAG (voir ci-dessous), d'une part sesconstituants, dont les collocations (ce qui est très important pourl'apprenant car les collocations sont loin d'être évidentesà reconnaître), et d'autre part une visualisation textuelle ougraphique de sa structure syntaxique.

5. Dictionnaire personnel et modèle de l'apprenant

Le système offre à l'apprenant la possibilité deconstruire son propre dictionnaire. Il s'agit en fait du vocabulaireétudié que l'apprenant regroupe à sa manière sousforme de réseau lexical, favorisant ainsi sa mémorisation.

Pour ces deux parties, nous nous inspirons directement des travaux deGoodfellow (Goodfellow 1994). D'après la théorie (Aitchison1987), deux facteurs déterminent la possibilité de production demots. Il s'agit, d'une part, du niveau d'activation de "base" du mot(c'est-à-dire du niveau d'activation au moment où le processuscommence) ainsi que du nombre et des types de liens que ce mot possèdeavec d'autres dans le réseau. Plus un mot a de lien, plus sa productionsera possible même si son niveau d'activation est bas. De même,plus le niveau d'activation du mot est haut, plus celui-ci est susceptibled'être produit, même s'il est peu lié au reste duréseau. Dès lors, une stratégie d'apprentissage se doit defavoriser au maximum le nombre de connexions du réseau, et de placer lesniveaux d'activation de base le plus haut possible.

C'est ce que le système propose de développer chez l'apprenant,en lui donnant la possibilité de créer son propre réseauavec ses propres liens (dans une activité de regroupement) ainsi que lapossibilité d'"activer" les mots qu'il désire étudier.Pour cela, il peut soit les sélectionner dans les textes, soit consulterdes informations sur eux dans le dictionnaire général monolingue,soit leur ajouter des annotations ou soit les manipuler dans le regroupement.

Le regroupement des mots se fait dans le dictionnaire personnel. L'apprenantsélectionne tout d'abord les mots qui l'intéressent, soit destextes, soit du dictionnaire général ou soit saisis au clavier,et les met dans une liste. Il crée ensuite des groupes suivant descritères de sens, de forme ou de syntaxe, puis les complèteà partir des mots de la liste.

Le modèle de l'apprenant contient la trace des opérationseffectuées. Il se doit aussi de stocker les mots que l'apprenant atravaillés, leur degré d'activation, leur degré deconnexion (nombre de groupes qui les contient) et le fait qu'ils aientété annotés ou non.

Toutes ces informations sont stockées dans des variables. Ellespermettent dès lors d'établir un statut pour chaque mot (par ex :très, assez ou peu "travaillé"), puis à partir de cesstatuts de déclencher des activités lexicalesappropriées.

Toutes ces données sont visibles pour l'apprenant. De plus, en examinantles dates de chaque opération, le système peut déterminerun taux et une vitesse d'apprentissage. Cela donne à l'étudiantla possibilité de s'auto-évaluer et de pouvoir comparer avec lessessions précédentes.

6. Génération et analyse

6.1. Activités lexicales

Comme nous venons de le voir, l'ensemble des informations contenue dansle modèle de l'apprenant permet de suggérer, par un "conseiller",le type d'activités lexicales les plus appropriées en fonction dustatut des mots. Suivant que le mot est plus ou moins connu, le "conseiller"propose telle ou telle activité lexicale. Parmi les activitéslexicales traditionnelles en compréhension et en production, nous avonsretenu : reconstitution d'une partie de réseau, groupements de motssuivant différents critères, exercices à trous, paraphrased'une expression, choix entre différentes paraphrases en contexte,détermination du sens d'un mot ou d'une expression à partir d'untexte dans lequel il (elle) est introduit de façon redondante, recherchedu sens d'un mot ou d'une expression à partir d'informationsfragmentaires (concept du "mot sur le bout de la langue"), etc. Cesactivités nécessitent pour une grande part l'utilisation ducorpus de textes, de la base de données lexicales et de l'analyseursyntaxique.

AlexiA utilise aussi une base de données syntaxique. Elle estconsultée en compréhension, dans le dictionnairegénéral ou lorsque l'apprenant désire connaître lastructure d'une phrase, et en production afin d'évaluer les performancesde l'apprenant. Nous avons donc choisi de ne pas coder les informationssyntaxiques de manière figée, mais plutôt de lesgénérer à partir d'un formalisme grammatical. Parmi lesdifférents formalismes existants, nous avons choisi celui desGrammaires d'Arbres Adjoints (Abeille 1990) (TAG). Nous nous sommesintéressés à ce formalisme pour trois raisons :


* Les grammaires TAG sont lexicalisées, c'est-à-direqu'à chaque item lexical correspond une structure syntaxique. Cettelexicalisation a des conséquences linguistiques et informatiquesmais surtout elle nous parait adaptée à un système d'aideà l'apprentissage lexical.


* Les TAGs ont une représentation graphique directe sous formed'arbres syntagmatiques. Cette représentation pourra êtremontrée à l'apprenant soit pour offrir une information plusgraphique d'une structure syntaxique, soit pour lui permettre de manipulerà la main des phrases (passivation, nominalisation, ...).


* Comme, par définition, à chaque item lexical correspond unestructure, ce formalisme offre la possibilité de représenter lescollocations comme une structure atomique.

6.2. Le formalisme des grammaires d'arbres adjoints

Le langage généré par la grammaire TAG est obtenupar l'application de deux opérations de composition sur les arbresélémentaires, ou encore sur les arbres dérivés deces opérations, l'adjonction et la substitution (figure2). On appelle arbre de dérivation l'arbre représentantla combinaison des arbres élémentaires ainsi que lesopérations utilisées pour les combiner entre eux, c'est unedéfinition plus sémantique de la phrase. A un mêmearbre dérivé peuvent correspondre plusieurs arbres dedérivation.

Figure 2 : Grammaire et arbres dérivés

On associe aux noeuds des arbres élémentaires une structure detraits, c'est-à-dire un ensemble de couples attribut/valeur. Lescontraintes d'unification de ces traits lors des opérations desubstitution et d'adjonction permettent le calcul des traits correspondantspour les arbres dérivés.

6.3. Description de la grammaire

La grammaire que nous utilisons pour AlexiA est composée d'unanalyseur morphologique, d'un lexique morpho-syntaxique et d'un ensemble defamilles d'arbres. Une famille d'arbres est un ensemble d'arbresélémentaires correspondant à différentes structuressyntaxiques partageant le même type de sous-catégorisation. Il ya, par exemple, une famille d'arbres pour chaque verbe suivant sasous-catégorisation (un ou deux compléments, introduit par uncomplément ou non, ...). Nous utilisons un analyseur morphologique,développé précédemment, pour sélectionnerdans la base de données des familles d'arbres, les famillescorrespondant aux informations morphologiques des mots. L'analyseurmorphologique a 55000 entrées lexicales et 199 traitsmorpho-syntaxiques. Cette méthode ne permettant pas degénérer toutes les unités lexicales, en particulier lescollocations, nous utilisons un lexique morpho-syntaxique poursélectionner directement les familles d'arbres adéquates. Unecollocation est définie comme un arbre pré-construitd'après un schéma prédéfini.

Exemple:

S/NP(V[mâcher])NP[la_besogne]P[à]NP Nom de la nouvellestructure

S/NP(V[mâcher])NPPNP Famille de base

SS NP NP/DET(N[besogne]) Substitution avec une autre famille

SS DET [la] Substitution d'un mot

SS P [à] Substitution d'un mot

-R2 On enlève la variation syntaxique R2

-Q2 On enlève la variation syntaxique Q2

R2 et Q2 sont respectivement les variations relatives et questionde la famille S/NP(V)NPPNP.

Cela signifie que l'expression "mâcher la besogne à quelqu'un" nepeut être mis sous forme relative ou interrogative sans perdre son sensidiomatique.

6.4. Un algorithme d'analyse pour les TAGs

Notre objectif est d'offrir à l'apprenant le plus d'informationspossible sur la phrase qu'il a produite. Il faut notamment qu'en cas deproduction incorrecte, le système lui indique le type de l'erreurcommise (mauvais placement d'un item lexical, oubli ou rajout d'un item, ...)et quelles sont les parties de phrase correctes. Par exemple la phrase*Jean beaucoup semble travailler doit donner aprèsanalyse Jean semble travailler et beaucoup. Nous avons doncchoisi d'écrire un algorithme purement montant (Issac 1994),c'est-à-dire que l'on part des mots puis on reconstruit la phraseà l'aide des opérations d'adjonction et de substitution.

6.5. Production de l'apprenant

Toutes les productions de l'apprenant, quelque soit le type d'exercice,devront être fortement guidées par le système car celui-cine possède pas de module sémantique. Même si le formalismedes TAG, à l'aide duquel seront analysées les productions del'apprenant, intègre quelques traits sémantiques qui contraignentla construction syntaxique, cela reste de bas niveau. Les diagnostics faits surles productions de l'apprenant se feront au niveau syntaxique.

Pour une phrase écrite par un apprenant on peut distinguer trois typesde réponses de l'analyseur. Soit la grammaire estincohérente, ce qui signifie que les unités lexicaleschoisies par l'apprenant ne pourront jamais se combiner pour former une phrasecorrecte. Dans ce cas le système peut présenter àl'apprenant les incompatibilités entre les différentesunités. Soit la production est correcte, c'est à dire quela phrase est syntaxiquement correcte, l'apprenant a alors lapossibilité de consulter l'arbre dérivé, l'arbre dedérivation et les arbres élémentaires. Soit laproduction est incorrecte, et l'on peut encore distinguer deux cas :l'erreur est détectée au cours de l'unification, ce qui signifieque c'est une erreur d'accord[7], et l'on peutdans certains cas proposer une correction et une explication. Ou bien l'erreurest syntaxique et dans ce cas on peut présenter à l'apprenant lesplus grandes sous-parties d'arbres correctes.

Bibliographie

A. Abeillé (1990) : Quand l'arbre ne cache pas la forêt,analyse du français à l'aide d'une grammaire d'arbresadjoints. In TA informations, Vol 31, ndeg.2, pp 51-70.

J. Aitchison (1987) : Words in the mind, Blackwell.

P. Bogaards (1994) : Le vocabulaire dans l'apprentissage des languesétrangères, LAL, Credif, Hatier/Didier.

T. Chanier, C. Fouqueré, F. Issac (1995) : AlexiA : Un environnementd'aide à l'apprentissage lexical du français langue seconde.EIAO 95, pp 79-90, Eyrolles Ed.

Collins (1994) : Collins Cobuild, English Dictionary : Helping learners withreal english. Collins, 1984-1994.

R. Goodfellow (1994) : A computer-based strategy for foreign-languagevocabulary-learning, Thèse de Doctorat, Open University, 234pages.

F. Issac (1994) : Un algorithme d'analyse pour les grammaires d'arbresadjoints. Colloque international sur les TAGs (TAG+3), pp. 53-56,Paris.

I. Mel'cuk (1992) : Dictionnaire Explicatif et Combinatoire dufrançais contemporain. Recherche lexico-sémantique III. Lespresses de l'université de Montréal.




[1] Nous appellerons cooccurrence un groupe demots apparaissant fréquemment ensemble ("verser un salaire").

De plus, on peut faire varier au moins un des mots sur l'axe paradigmatique("toucher", "percevoir", "recevoir un salaire" ; "toucher un salaire", "uneallocation", "des revenus").

Une collocation est une cooccurrence qui n'admet pas cette variation ("petitboulot" est une collocation car ni "boulot" ni "petit" ne peuvent varier;"petit travail", "petit job" ne sont pas des cooccurrences). Dans lescollocations, nous englobons les expressions semi-figées ("bosser commeun fou", "travailler au noir") dont le sens ne peut être déduità partir des mots les constituant.

[2] De 2 à 5 mots par seconde avec untaux d'erreur inférieur à 1 pour 1000

[3] On considère d'une part lafréquence par rapport au domaine("chômage" trèsfréquent dans notre corpus) et d'autre part la fréquence dans lefrançais en général.

Par ailleurs, ces indications de fréquence ne figurent dans aucundictionnaire de français.

[4] Lorsque l'on compte les occurrences d'uneentrée dans un texte de manière automatique, on ne peut pasmalheureusement trancher entre les différents sens.

[5] Un concordanceur est un programme qui, pourun mot donné, recherche dans un texte toutes ses concordances,c'est-à-dire les phrases ou les groupes de mots dans lesquels ilapparaît.

[6]A noter que "petit boulot", en tant quecollocation, a aussi son entrée propre. Il a le même statut queles mots "simples" et possède les mêmes informations (comme parexemple sa construction syntaxique)

[7]Au sens large puisque les arbresélémentaires possèdent, par exemple, des traits de typehumain.