Texte
La première étape est exécutée sous EXCEL à l'aide de macros VBA et finalisée
sous une ... La segmentation du texte est effectuée par une macro, qui s'exécute
en cliquant sur l'onglet ..... Les ratios BRUT et CORRIGE donnent la force globale
respectivement rapportée au nombre de ... Méthode, Exercices, Cedic, Paris.
Part of the document
UN outil pour l'enseignement de l'analyse statistique textuelle et les
Systèmes de Gestion de Bases de Données
Serge SABOURIN[1], Abdellah QANNARI [2] et Laurence Reboul [3]
Title
A TOOL FOR TEXTUAL ANALYSIS TEACHING AND DATA BASE MANAGEMENT
RÉSUMÉ
DANS UN SOUCI DE TRANSVERSALITÉ ENTRE LES ENSEIGNEMENTS DE STATISTIQUE
ET D'INFORMATIQUE DISPENSÉS DANS NOS FORMATIONS, NOUS AVONS ÉLABORÉ UN
LOGICIEL POUR LA PRÉPARATION ET LES ANALYSES DE BASE D'UN CORPUS
TEXTUEL. CET OUTIL PERMET D'ACCOMPAGNER NOS ÉTUDIANTS DANS LEUR MISE EN
APPLICATION DE LEURS CONNAISSANCES À LA FOIS EN ANALYSE STATISTIQUE
TEXTUELLE ET EN GESTION DE BASES DE DONNÉES.
Mots-clés : Analyse textuelle, SGBD, Excel, Access.
Abstract
FOR THE SAKE OF TRANSVERSALITY BETWEEN INFORMATICS AND STATISTICS
TEACHING, WE ELABORATED A SOFTWARE FOR THE PREPARATION AND PRIMARY
ANALYSIS OF A TEXTUAL CORPUS. THIS TOOL ASSITS OUR STUDENTS IN THE
APPLICATION OF THEIR KNOWLEDGE IN TEXTUAL STATISTICAL ANALYSIS AND DATA
BASE MANAGEMENT.
Keywords :.Textual analysis, DBMS, Excel, Access.
1. Introduction
Les formations professionnalisantes telles que celles que nous dispensons
dans le cadre de l'IUT STID et de la licence professionnelle Statistiques
Commerciales doivent répondre à la nécessité croissante de stocker, gérer
et traiter des données de plus en plus volumineuses dans de nombreux champs
économiques. Cette finalité mobilise de solides compétences tant en
informatique qu'en statistique.
L'outil présenté ici est à visée purement pédagogique et a été créé dans
un souci de transversalité entre ces deux types de compétences. Il s'agit
d'un logiciel d'analyse textuelle conçu à l'aide des logiciels ACCESS et
EXCEL de la suite Microsoft Office. Open source et complètement modulable,
il participe à l'apprentissage des Systèmes de Gestion de Bases de Données
relationnelles tout en permettant aux étudiants de se familiariser avec
les méthodes statistiques utilisées en analyse textuelle, dont l'objectif
est d'extraire d'un ensemble de textes (discours, questions ouvertes,
etc...), communément appelé corpus, l'information la plus pertinente. Ces
méthodes ont connu un grand essor depuis les années quatre-vingt dans
différents domaines tels que les sciences sociales, les sciences de
gestion, la stylométrie, la recherche documentaire (voir [3], [4], [5] pour
un aperçu de ce champ de la statistique).
En tant qu'instrument d'apprentissage d'ACCESS et de la statistique
textuelle, notre outil a été conçu de manière à permettre aux étudiants de
modifier des modules existants ou d'en développer de nouveaux en fonction
de leurs besoins, au fur et à mesure de leur acquisition des méthodes de la
statistique textuelle en cours de statistique. L'outil possède donc, dans
sa version de base, des fonctionnalités simples destinées à être améliorées
et ne prétend pas rivaliser avec les logiciels spécialisés tels que SPAD.T,
ALCESTE, HYPERBASE, PROSPERO, etc... (voir [2] pour une description de ces
logiciels). Il permet tout au plus de se familiariser avec les outils les
plus simples d'exploration statistique d'un corpus textuel : dépouillement
du corpus et recoupement de données en utilisant le comptage de mots, la
lemmatisation, l'étude des contextes. Toutefois, il possède l'originalité
de permettre à l'utilisateur de créer des indices pour quantifier
l'adéquation d'un texte à une thématique, ce qui ne semble pas avoir été
développé jusqu'alors par les logiciels existants.
2. Présentation de l'outil
Le fonctionnement de l'outil requiert deux étapes. Une première étape de
préparation du corpus et une seconde consacrée à l'analyse à proprement
parler de ce corpus.
La première étape est exécutée sous EXCEL à l'aide de macros VBA et
finalisée sous une application ACCESS, qui sera aussi utilisée pour
effectuer l'analyse des textes. Les menus de l'application permettant les
différents traitements sont des formulaires. Les données textuelles et
calculs effectués sur celles-ci sont stockés dans des tables ou des
requêtes, dont certaines n'ont pas encore été intégrées dans les
formulaires. Ces objets ACCESS sont accessibles en lecture et écriture
depuis le menu base de données de l'application.
Les deux étapes sont illustrées à partie d'un corpus constitué de trois
contes de Sternberg, issus du recueil Contes glacés : Les chats (329 mots,
23 phrases), Le communiqué (203 mots, 15 phrases), Le rêve (184 mots, 18
phrases).
2.1. Préparation du corpus
Segmentation et importation des textes
L'objectif premier de cette étape est de transformer les textes à étudier
en une structure d'informations requêtables. Chaque nouveau texte à
analyser est copié dans le classeur EXCEL nommé anarapport.xls en cliquant
sur l'onglet « nouveau document » et en entrant le texte dans la première
cellule située juste en dessous du dernier texte entré. Le texte doit au
préalable avoir été débarrassé de ses imperfections (fautes
d'orthographe,...) et potentielles confusions (traitement des sigles
séparés par des points tels que S.N.C.F, des abréviations, des verbes
suivis d'un pronom personnel tels que peut-il...). La segmentation du texte
est effectuée par une macro, qui s'exécute en cliquant sur l'onglet « tous
les mots » (l'onglet « sans nombre » permet d'effectuer une segmentation du
texte privé de ses informations numériques). Celle-ci effectue le découpage
du texte en phrases, une phrase étant définie comme l'ensemble des mots
situés entre deux caractères délimitateurs (qui peuvent être ici le point,
les points d'exclamation, d'interrogation ou de suspension). Chaque phrase
est débarrassée de ses signes de ponctuation et se présente comme une
séquence d'occurrences de mots. La macro affecte à chaque occurrence son
rang d'apparition dans le texte (visualisable dans la feuille « rapport »
du classeur) et indique pour chaque phrase sa longueur ainsi que les
positions de ses premier et dernier mots dans le texte (visualisables dans
la feuille « posphrases »).
[pic]
Figure n° 1 : Les chats : Décomposition en mots du conte (extrait) sur la
feuille « rapport »
[pic]
Figure n° 2 : synthèse des phrases du conte les chats dans la feuille
« posphrases »
Les fichiers ainsi segmentés doivent ensuite importés dans les tables
« basemots » et « basephrases » de la base de données de l'application
ACCESS. Pour ce faire, on ouvre l'application. Un formulaire de menu
général « Importation de nouveaux textes » apparaît, qui permet d'importer
les nouveaux textes grâce via les onglets «importer un nouveau texte »
(resp. « remplacer les textes par les textes EXCEL »). Les fichiers
importés viennent enrichir (resp. remplacer) l'ensemble des textes déjà
disponibles dans les tables. Il s'agit dès lors de sélectionner, parmi cet
ensemble de textes, ceux sur lesquels portera l'analyse. Pour cela, on doit
cliquer sur l'onglet «aller au menu » puis « suite».
L'application s'ouvre alors sur un nouveau menu dans lequel les textes
préchargés sont présentés avec leur titre et leur nombre d'occurrences sur
la sous-fenêtre de droite. Le corpus sur lequel portera l'analyse est
sélectionné en cochant les textes que l'on veut inclure puis en validant
cette sélection à l'aide du bouton «valider la sélection des textes». Le
bouton «sélectionner et valider tous les textes» permet en outre de
sélectionner tous les textes importés.
[pic]
Figure n° 3 : menu général « analyse thématique » de l'application access
Gestion des définitions et des lemmes
Le logiciel possède un dictionnaire de mots dynamique, accessible depuis
l'onglet « Dictionnaire ». Il est constitué d'un dictionnaire de base
préchargé dans la table « dico » du logiciel, que l'on peut éventuellement
enrichir des nouveaux mots contenus dans les textes importés. Le menu
permet de faire défiler les mots du dictionnaire ou de rechercher un mot
particulier en utilisant les boutons « suivant », « précédent » et
« choisir ». La fenêtre « longueur » indique la longueur du mot. Son rang
d'apparition dans le dictionnaire est donné dans la fenêtre « enr » en bas
à gauche.
A chaque mot peut être associé s'il y a lieu, son type, son genre, son
nombre et un lemme. Ces champs ont été renseignés pour la plupart des mots
du dictionnaire préchargé et devraient l'être à terme pour tous. Il est
toutefois nécessaire de les préciser pour chaque nouveau mot du corpus
rajouté au dictionnaire. La lemmatisation des mots sera en effet utile lors
de certaines analyses présentées ultérieurement. Elle consiste à associer à
une forme de base ses différentes formes dérivées. La forme de base
diffère selon la nature du mot sélectionné, et on ramène généralement :
- Les formes verbales à l'infinitif,
- les substantifs au singulier,
- les adjectifs au masculin singulier.
[pic]
Figure n° 4 : Aperçu du menu dictionnaire
Il est à noter que certaines fonctionnalités de ce menu ne sont pas
encore actives et destinées à être développées par les étudiants. En
particulier, l'information « Nb dans base » censée indiquer (comme lu dans
« enr ») et stocker la position des mots dans le dictionnaire