Colloque 605 de l'ACFAS 2017

Analyser la science : les bibliothèques numériques comme objet de recherche

Programme

Une version imprimable du programme peut être téléchargée.

Lundi 8 mai, 8h45-9h45

Éric Archambault (Science Metrix, Montréal)

Mesure du libre accès aux articles scientifiques – un exercice complexe

Support de présentation - PDF

À ce jour, pratiquement toutes les mesures effectuées sur le libre accès aux articles scientifiques ont utilisé des échantillons, souvent de taille réduite. Or, en bibliométrie la tradition est plutôt de produire des statistiques à partir de banques de données dont on considère l’ensemble du contenu, par exemple en se servant du Web of Science (Clarivate Analytics). 1science et Science-Metrix, deux entreprises montréalaises, ont combiné leurs efforts pour amorcer l’ère de la mesure du libre accès à l’échelle d’une quasi-population d’articles. Cette présentation décrira la définition du libre accès utilisée dans l’étude, fera état des difficultés spécifiques à la mesure du libre accès, et présentera des résultats exclusifs sur l’état du libre accès au Québec, au Canada et dans le monde.

Mardi 9 mai, 8h45-9h45

Philippe Langlais (RALI, DIRO, Université de Montréal)

Extraction ouverte d’information : de Wikipédia à Érudit

Support de présentation - PDF

Tirer parti de la masse grandissante de textes disponibles sur la toile constitue un enjeu tant universitaire qu'industriel. Dans cette présentation, nous proposons un tour d’horizon des travaux en extraction ouverte d’information, en prenant soin d’en montrer les limites. Nous décrivons ensuite des scénarios d’utilisation de ces technologies pour les sciences humaines. Nous nous appuyons sur une expérience réalisée au RALI dans laquelle l’information extraite de Wikipédia a été mise à profit pour étiqueter des entités extraites de la base documentaire d’Érudit.

Séance Heure Conférencier(s) Support de présentation Titre et résumé
Mot de bienvenue 8h30-8h45 Lyne Da Sylva
Conférence invitée 8h45-9h45 Éric ARCHAMBAULT PDF
Mesure du libre accès aux articles scientifiques – un exercice complexe

À ce jour, pratiquement toutes les mesures effectuées sur le libre accès aux articles scientifiques ont utilisé des échantillons, souvent de taille réduite. Or, en bibliométrie la tradition est plutôt de produire des statistiques à partir de banques de données dont on considère l’ensemble du contenu, par exemple en se servant du Web of Science (Clarivate Analytics). 1science et Science-Metrix, deux entreprises montréalaises, ont combiné leurs efforts pour amorcer l’ère de la mesure du libre accès à l’échelle d’une quasi-population d’articles. Cette présentation décrira la définition du libre accès utilisée dans l’étude, fera état des difficultés spécifiques à la mesure du libre accès, et présentera des résultats exclusifs sur l’état du libre accès au Québec, au Canada et dans le monde.

Pause 9h45-10h
Pratiques communicationnelles 10h-10h30 Joseph MARIANI, Gil FRANCOPOULO, Patrick PAROUBEK PDF
Constitution et exploitation du corpus NLP4NLP pour l’analyse bibliométrique de 50 ans de recherches en traitement automatique de la parole et du langage naturel

Nous avons constitué le corpus NLP4NLP pour étudier le contenu des publications scientifiques dans le domaine du traitement automatique de la parole et du langage naturel. Il contient les articles publiés dans 34 conférences et revues principales du domaine, sur une période de 50 ans (1965-2015), comprenant 65.000 documents, rassemblant 50.000 auteurs et représentant environ 270 millions de mots. La plupart de ces publications sont en langue anglaise, certaines en français, en allemand ou en russe. Certaines sont en accès libres, d’autres ont été fournies par leurs maisons d’édition. Pour constituer et analyser ce corpus, plusieurs outils ont été utilisés ou développés. Certains d’entre eux utilisent des méthodes de traitement du langage naturel qui ont été publiées dans le corpus, d’où son nom. Il a été nécessaire d’effectuer de nombreuses corrections manuelles qui ont montré l’importance d’établir des normes permettant d’identifier de manière unique les auteurs, les publications, les données ou les sources. Nous avons conduit différentes études : évolution au fil du temps du nombre d’articles et d’auteurs, collaborations entre auteurs, citations entre papiers et entre auteurs, évolution des thèmes de recherche et identification des auteurs qui les ont introduits, détection des innovations et des ruptures épistémologiques, réutilisation des articles et plagiat, utilisation des ressources linguistiques, dans le cadre d’une analyse globale ou comparative entre sources.

10h30-11h Elsa POUPARDIN, Evelyne BROUDOUX ANNULÉ
Typologie du blogging scientifique : étude exploratoire sur Hypothèses.org

Les recherches qualitatives sur le blogging de chercheurs, leurs motivations et leurs influences sont encore peu nombreuses. En France, le bouquet de blogs « Hypothèses.org » créé par le Cléo héberge depuis 2008 des « carnets de recherche » en SHS. Ouvrir un carnet procède de différents objectifs : accompagnement d’un programme de recherche ou d’études de terrain, réflexions argumentées sur des thématiques disciplinaires, sont parmi les plus représentés. Les 1722 blogs actuellement sur la plateforme sont répartis en 17 catégories, choisies par les auteurs à l’ouverture de leur blog. L'étude quantitative menée dans le cadre d’un projet de recherche sur l’écosystème scientifique numérique porte sur la catégorie « Carnets de chercheurs » qui regroupe 257 blogs francophones publiés jusqu’en décembre 2016. Une première typologie de ces blogs en sciences humaines sera proposée. L’hypothèse posée que se mettent en place des dynamiques citationnelles commencera d’être étudiée dans la seconde partie de ce travail. Les blogs du corpus construisent une pensée, installent et mettent à l’épreuve des concepts théoriques, en s’appuyant sur des références, en choisissant certains termes spécialisés. Les citations explicites (liens hypertextes) ou implicites (simple nom d’auteurs ou d’œuvres) sont les marques qui nous intéressent tout comme celles qui signalent l'intérêt du blogueur pour ses lecteurs (vulgarisation, explication, argumentation, etc.) confrontant des concepts ou des idées.

11h-11h30 Jean-François GAUVIN (BAnQ), Marielle ST-GERMAIN PDF
BAnQ numérique comme partie intégrante d'un écosystème de services innovant

Projet phare de l’horizon 2020 de Bibliothèque et Archives nationales du Québec (BAnQ), BAnQ numérique (numerique.banq.qc.ca) a comme objectif de rendre accessible l’ensemble des ressources numériques du patrimoine documentaire conservé par l’institution ainsi que les ressources sous licence, telles que les livres numériques et les bases de données faisant partie de son offre. La constitution d’une bibliothèque numérique est le premier jalon de la stratégie numérique de BAnQ qui s’appuie sur une structure réfléchie dont l’objectif est de permettre d’assurer et de faciliter l’accès à l’information, la préservation du patrimoine documentaire numérique, la découverte, la recherche, le partage, le décloisonnement des contenus et l’enrichissement de l’expérience usager. Ainsi, à cette structure s’ajoutent, complémentaires à BAnQ numérique, des projets tels que le dépôt numérique fiable, basés sur la norme Open Archival Information System (OAIS), ainsi qu’une plateforme visant la publication de données ouvertes et de données ouvertes et liées (Linked Open Data). La mise sur pied de ces services n’est évidemment pas sans défi et implique une réflexion nouvelle quant au traitement des documents et des métadonnées qui y sont rattachées. Nous présenterons d’abord cette nouvelle façon d’envisager la bibliothèque numérique au sein de BAnQ ainsi que les projets en développement qui s’y rattachent, formant un écosystème de services cohérent et innovant.

11h30-12h Camille PRIME-CLAVERIE, Annaïg MAHÉ PDF
Open science et présence numérique en sciences humaines et sociales

Dans la mouvance de la science ouverte qui vise un meilleur accès aux publications, aux résultats et aux données de la recherche, leur partage et leur réutilisation, différents dispositifs communicationnels à destination de la communauté scientifique ont vu le jour : archives ouvertes, réseaux sociaux de chercheurs, plateformes de blogging scientifique, etc. Qu’ils soient portés par des initiatives privées (ResearchGate, Academia.edu, etc.) ou publiques (HAL, OpenEdition), les chercheurs se les approprient avec des stratégies et motivations différentes. Cette communication s’inscrit dans un programme de recherche qui vise l’étude des pratiques communicationnelles et de mise en visibilité des chercheurs en sciences humaines et sociales dans le nouvel écosystème scientifique numérique. Elle présente un travail en cours qui a pour objectif d’étudier du point de vue des acteurs les interactions entre la plateforme Hypothèses.org et l’archive ouverte HAL-SHS. Il s’agira d’évaluer le degré d’investissement et d’implication des chercheurs sur ces plateformes afin d’en dégager des comportements types. Pour cette étude, nous adoptons une démarche quantitative et travaillons sur deux corpus extraits par le protocole OAI-PMH : le premier, constitué des billets de blogs de la plateforme Hypothèses.org postés en 2015. Le second regroupant l’ensemble des notices déposées dans HAL-SHS (2002-2015).

Lunch 12h-13h15
Usages et usagers 13h15-13h45 Antoine HENRY, Fabrice PAPY, Edwige PIEROT PDF
Usages des bibliothèques numériques : interroger la genèse instrumentale de leur interopérabilité technocentrée

Ancrées dans les SHS, les questions relatives aux usages se posent légitimement aux bibliothèques numériques considérées avant tout comme des objets sociotechniques et socioculturels. Ces questionnements s’impose d’autant plus que les usages des bibliothèques numériques, aux architectures techniques éprouvées, dotées de ressources hétérogènes en libre accès (Gallica, Europeana, Persee, HAL, etc.), et financées par des programmes gouvernementaux, demeurent incertains. Elaborés sur une transposition illusoire de la bibliothèque physique, ces artefacts techno-documentaires imposent une désintermédiation aux usagers, où le bibliothécaire a disparu, au profit d'une interaction instrumentée de la RI par les TIC. L’interopérabilité technocentrée de ces bibliothèques numériques paroxyse la désintermédiation et malmène acceptabilité et utilisabilité. De nombreuses recherches soulignent que les usagers ne parviennent pas à s’approprier les dispositifs qui devraient répondre à leurs attentes d’association et de contextualisation de l’information que les actions en faveur de l’Open Data et des Linked Open Data encouragent. Parmi les technologies du Web présentes dans les bibliothèques numériques patrimoniales, l’architecture REST est négligée alors que les GAFA l’utilisent – et la mettent à disposition - dans leurs bibliothèques numériques pour améliorer l’appropriation de leurs services. A la lumière des travaux de P. Rabardel sur les genèses instrumentales et le nécessaire assujettissement de l’instrument aux formes de l’organisation du travail, les API REST, en réajustant la vocation de l’interopérabilité technologique, sont de nature à réhabiliter l’usage réel des bibliothèques numériques et à offrir aux usagers des instruments adaptés à leurs activités constructives.

13h45-14h15 Eleonore ALQUIER PDF
Une production documentaire au service de l’usage ? l’évolution du système d’information de l’Institut national de l’audiovisuel (INA)

Établissement public français consacré à la conservation du patrimoine radio- et télédiffusé, et plus largement, audiovisuel, l’INA s’est positionné dès les années 1990 comme une structure documentaire résolument numérique, proposant à ses usagers des outils experts d’interrogation des fonds, mais aussi d’appropriation de ceux-ci par constitution de corpus, segmentation de contenus audiovisuels… L’analyse des usages occupant dès l’origine une place centrale, la conception d’interfaces de consultation adaptées aux différents besoins a permis de balayer un spectre large, depuis les professionnels (journalistes, producteurs) en attente d’un résultat unique et pertinent, jusqu’aux chercheurs du monde académique, avides de collections massives sur lesquelles mener des analyses tant qualitatives que quantitatives. Alors que l’Ina procède depuis plus de 15 ans à la numérisation systématique de ses collections, la refonte de son modèle de données documentaires interroge aujourd’hui l’évolution des pratiques documentaires. L’intégration annoncée de procédés automatiques de transcription, détection d’entités nommées, reconnaissances de sons et d’images, peut-elle garantir un niveau homogène dans la qualité des métadonnées ? Comment cette entrée progressive dans l’univers, sinon du big, au moins du Linked Data, trouve-t-elle son articulation avec le respect de la propriété intellectuelle et avec les évolutions réglementaires françaises touchant à l’ouverture des données publiques ?

14h15-14h45 Nicolas ROLLET, Valérie BEAUDOUIN, Isabelle GARRON PDF - sans vidéo
Vidéo-ethnographie des usages de la bibliothèque numérique Gallica : une exploration au plus près de l’activité

Dans le cadre d’un projet associant la Bibliothèque nationale de France, le labex Obvil et Télécom ParisTech, plusieurs modalités d’enquête (entretiens, questionnaire en ligne, vidéo-ethnographie) ont été mobilisées pour mieux appréhender les publics en ligne. En particulier, poussés par le souhait de renouveler les manières d’étudier les usages des bibliothèques en ligne, nous nous sommes orientés vers une approche vidéo-ethnographique, afin de documenter comment des utilisateurs organisaient leur consultation de la bibliothèque Gallica en situation. Nous avons mobilisé le protocole SEBE (Subjective Evidence Based Ethnography), développé par Saadi Lahlou, qui combine prise de vue subjective et entretien d’autoconfrontation – auprès d'une dizaine de personnes. Cette approche permet de documenter l'usage de Gallica d’une façon inédite, dans la mesure où les personnes sont invitées à reconstituer leurs raisonnements, à expliciter à chaque instant quels étaient leurs buts. Nous nous sommes en particulier intéressés à deux aspects de l'usage : 1) les processus d'évaluation et de catégorisation en jeu dans les résultats d'une recherche, dans la consultation d'une liste, ou dans la perception d'un document 2) la dimension écologique de l’usage de Gallica, qui s'inscrit dans un contexte de multiactivité (à l'écran et hors écran) fait d'interruptions, de bifurcations et de collaborations, renforçant son analyse en tant que pratique sociale.

14h45-15h15 Jacques DUCLOY, Thierry DAUNOIS, Ali TEBBAKH PDF
Une cyberinfrastructure numérique et humaniste pour analyser et diffuser la science

Avec le soutien du programme ISTEX, le démonstrateur Wicri expérimente l’élaboration d’informations de synthèse en explorant des corpus scientifiques. Son socle est un réseau de wikis sémantiques (Semantic MediaWiki). Les corpus sont traités dans des plateformes de curation et d’exploration, fabriquées, sous Unix, avec une bibliothèque de composants XML ou PHP. Avec un haut niveau de personnalisation, la version actuelle permet de fusionner des métadonnées hétérogènes (ISTEX, HAL, Pascal/Francis, PubMed, PubMed Central) avec réduction des doublons et homogénéisation des données. Il est possible ensuite d’exploiter le texte intégral. Le rédacteur, humaniste numérique, est le véritable pilote d’une étude. Il bénéficie des performances de MediaWiki pour rédiger un texte scientifique en mode collaboratif. Il assemble des briques XML pour obtenir des modèles wiki contenant des cartes et des tableaux de résultats qu’il introduira dans les pages wiki. Il manipule l’environnement sémantique pour exprimer les règles utilisées dans la curation des données. Cette infrastructure, encore expérimentale, est notamment utilisée pour des travaux dirigés dans des Master en science de l’information. Sur des sujets en rapport avec le contenu des wikis thématiques (environnement, linguistique, informatique…) ou régionaux (Allemagne, France, Brésil, Lorraine…), un groupe d’étudiants peut ainsi analyser un ensemble de plusieurs milliers de documents et rédiger des observations synthétiques.

Pause café 15h5-15h30
Web sémantique / Données ouvertes liées 15h30-16h Alexandre FORTIER, Elaine MÉNARD PDF
DOLMEN : Vers un meilleur accès aux collections virtuelles des musées canadiens

Le projet DOLMEN (Données Ouvertes Liées : Musées et Environnement Numérique) propose d’examiner les éléments essentiels à la description des objets muséaux et de modéliser ceux-ci à l’aide de données ouvertes liées (DOL). Traditionnellement, les musées offrent à leurs usagers des descriptions limitées à quelques informations textuelles décrivant les objets muséaux. Des informations complémentaires sur l’œuvre ou son créateur ne sont pas nécessairement offertes aux usagers. L’utilisation des DOL semble une solution idéale pouvant améliorer ces descriptions. Cette proposition trace un portrait des éléments utilisés par les musées pour la description de leurs collections en ligne. Pour cette étape, les collections de 266 musées canadiens ont été examinées. Les métadonnées associées à une dizaine d’objets ont été extraites et compilées. L’analyse révèle que quatre types d’objets sont présents dans les collections (œuvres d’art, objets fonctionnels artisanaux, objets fonctionnels industriels et documents) et que certaines métadonnées sont associées aux quatre types, alors que d’autres sont exclusives à un type particulier. Les résultats de cette première phase du projet constituent le fondement du modèle des DOL et indiquent que sa création doit tenir compte de la disparité des types d’objets. Ce projet se veut donc un tremplin vers le Web sémantique et de nouveaux outils permettant de rendre les collections culturelles et patrimoniales mieux accessibles aux générations futures.

16h-16h30 Maxime SAINTE-MARIE, Jean-François GAUVIN (Harvard), Vincent LARIVIÈRE PDF#1 et PDF#2
Les collections muséales au service de la science: une analyse de la collection d'instruments scientifiques historiques de l'Université Harvard

À l’ère numérique, si la plupart des musées maintiennent une base de données de leur collection, certains vont jusqu’à la rendre accessible en ligne, permettant ainsi aux internautes de la consulter et de s’enquérir au sujet d’artefacts particuliers. La Collection of Historical Scientific Instruments (CHSI) de l’université Harvard, comprenant plus de 20,000 objets datant du 15e au 20e siècles, est de ce nombre: que ce soit en ligne (http://waywiser.rc.fas.harvard.edu) ou à des fins internes, le EMuseum de la CHSI permet d’accéder en ligne à une grande quantité d’informations sur les artefacts qu’elle possède. D’un intérêt scientifique certain, cette collection offre la possibilité, moyennant une analyse de données adéquate, de révéler des informations intéressantes sur l’évolution des pratiques scientifiques. Toutefois, à l’instar des autres interfaces muséales, le EMuseum n’est pas conçu à des fins de forage de données muséales. En vue de pallier cette lacune, le présent projet consiste à dresser un portrait global du EMuseum, basé sur une analyse tripartite des artefacts de la collection, du réseau social qui les entoure et de la littérature s’y rapportant. À terme, ce projet vise à convaincre les autres musées des sciences de collaborer à la mise en commun de leurs bases de données, initiative qui permettrait d’élargir les perspectives de recherche en matière d’histoire des sciences et de la technologie.

16h30-17h Lyne DA SYLVA, Marielle ST-GERMAIN PPSX
Bibliothèque du Réseau francophone numérique : étude sémiotique de ses données ouvertes liées

Le Réseau francophone numérique (RFN, rfnum.org), fondé en 2006 par un groupe de six pays de la Francophonie, a pour mission de favoriser la numérisation de documents patrimoniaux francophones et de faciliter leur consultation en ligne. Le réseau compte dix-sept pays à ce jour. Un des projets du réseau a été la création d’une bibliothèque numérique (BN), soit un ensemble de documents numérisés dont les métadonnées ont été encodées en données ouvertes liées (Linked Open Data). Les métadonnées des 522 documents, hébergés dans les sites des membres respectifs, sont disponibles par requête SPARQL ou accès OAI-PMH (Open Archives Initiative-Protocol for Metadata Harvesting). Dans le but d’étudier le processus de communication à l’œuvre dans la création des BN, notre étude s’intéresse aux choix méthodologiques manifestes dans la formulation des données ouvertes liées de la BN. Spécifiquement, nous étudions les propriétés sémiotiques (soit sémantiques et informationnelles) de ces données liées. Nous présenterons les caractéristiques saillantes des documents de la BN (qui inclut journaux, livres, revues, cartes et plans, images et matériel audiovisuel) par le biais de leurs métadonnées. Puis, puisant à la théorie de la sémiotique, nous analyserons les signes sélectionnés par chaque groupe national, mettant en relief la représentation de la communauté visée et donc les enjeux de la diffusion de ces documents. Ce court exercice esquissera une approche méthodologique sémiotique novatrice.

Séance Heure Conférencier(s) Support de présentation Titre et résumé
Accueil 8h30-8h45 Pascal Cuxac
Conférence invitée 8h45-9h45 Philippe LANGLAIS PDF
Extraction ouverte d’information : de Wikipédia à Érudit

Tirer parti de la masse grandissante de textes disponibles sur la toile constitue un enjeu tant universitaire qu'industriel. Dans cette présentation, nous proposons un tour d’horizon des travaux en extraction ouverte d’information, en prenant soin d’en montrer les limites. Nous décrivons ensuite des scénarios d’utilisation de ces technologies pour les sciences humaines. Nous nous appuyons sur une expérience réalisée au RALI dans laquelle l’information extraite de Wikipédia a été mise à profit pour étiqueter des entités extraites de la base documentaire d’Érudit.

Pause 9h45-10h
Extraction de métadonnées 10h-10h30 Anubhav GUPTA, Denis MAUREL PDF
Indexer les entités nommées dans une volumineuse bibliothèque numérique scientifique multidisciplinaire

Cette communication porte sur la recherche des entités nommées dans une volumineuse bibliothèque numérique scientifique multidisciplinaire. L'objectif étant de permettre une interrogation avancée de cette bibliothèque en accompagnant le mot clé recherché d'une catégorisation. Par exemple la requête "Washington - nom de personne" évitera de retrouver des textes parlant de la ville ou de l'état, ou comprenant une adresse. De même la requête "2005 - date" ne retournera pas les textes citant dans la bibliographie un article de 2005, mais des articles comprenant une mention de l’année 2005 elle-même. Les entités, catégorisées et quantifiées, sont enregistrées, au format TEI stand-off, dans un fichier externe propre à chaque article. Nous utilisons un système à base de règles, des cascades de graphes sur la plateforme libre Unitex. Les systèmes par apprentissage nécessiteraient trop de textes annotés, étant donné la grande diversité de la base. Ces graphes décrivent le contexte des entités nommées pour les repérer. Nous avons implanté un nouveau type de graphes, le graphe de généralisation d’étiquetage, qui généralise dans un article (et dans celui-là seulement) les entités déjà repérées au moins une fois par leur contexte. Par exemple, un article comprenait 25 fois la mention HCR (Haut-commissariat aux réfugiés), mais seulement 3 fois avec un contexte permettant de l’identifier. L'utilisation de ces nouveaux graphes a permis la bonne quantification dans le fichier stand-off.

10h30-11h Eric KERGOSIEN, Teisseire MAGUELONNE, Marie-Noëlle BESSAGNET, Joachim SCHÖPFEL, Amin FARVARDIN PDF
Identification des terrains d’études dans les corpus scientifiques

Le projet interdisciplinaire TERRE-ISTEX a pour objectif d’identifier l’évolution des fronts de recherche en relation avec les territoires d’études, les croisements disciplinaires ainsi que les modalités concrètes de recherche à partir des contenus numériques hétérogènes disponibles dans les corpus scientifiques. Le projet se décompose en trois actions principales : (1) identifier les périodes et les lieux qui ont fait l’objet d’études empiriques et dont rendent compte les publications issues des corpus analysés, (2) identifier les approches (méthodes et concepts) mobilisées pour la réalisation de ces études et enfin (3) développer un démonstrateur Web de recherche d’information géographique (RIG). Les deux premières actions pour l’indexation des corpus font intervenir des approches automatiques combinant des patrons du traitement automatique du langage naturel à des méthodes de fouille de textes. En croisant les trois dimensions (spatial, thématique et temporel) dans un moteur de RIG s’appuyant sur la solution Elastic Search, il sera ainsi possible de comprendre quelles recherches ont été menées sur quels territoires, selon quelles approches et à quel moment. Dans le cadre du projet, les expérimentations sont menées sur un corpus hétérogène constitué de thèses électroniques et d’articles scientifiques provenant des bibliothèques numériques d’ISTEX et du centre de recherche CIRAD. Les corpus indexés via la plateforme sont accessibles au format XML MODS sous forme d’archives.

11h-11h30 François Dominic LARAMÉE PDF
La production de l’espace dans l’Encyclopédie : portraits d’une géographie imaginée

Pour l’historien, le traitement numérique de documents du XVIIIe siècle pose des problèmes méthodologiques considérables. Même les sources qui ont été retranscrites dans des bibliothèques numériques, comme celle du projet ARTFL de l’Université de Chicago qui regroupe l’Encyclopédie et des centaines de fascicules de littérature populaire, sont truffées d’archaïsmes et d’orthographes instables qui déjouent les modèles linguistiques des outils d’analyse. Néanmoins, avec les précautions requises, il est possible d’appliquer des techniques informatiques à un corpus d’articles de l’Encyclopédie pour en extraire les multiples portraits du monde — explicites ou implicites — que leurs auteurs y ont inséré. L’étude des spécificités lexicales et la modélisation thématique permettent notamment de caractériser la représentation de l’Amérique dans l’Encyclopédie comme celle d’un objet de curiosité scientifique dont on parle au présent, contrairement à d’autres parties du monde. L’analyse factorielle des correspondances a, quant à elle, permis de confirmer la subversion du projet géographique original de Diderot par le chevalier Louis de Jaucourt, dont les plus de 8 000 articles géographiques dominent les derniers volumes de l’ouvrage. La présentation s’articulera autour du concept de production de l’espace, tel que formulé par le philosophe Henri Lefebvre, ainsi que des définitions de l’espace (incertain) et du lieu (familier) du géographe Yi-Fu Tuan.

11h30-12h Elena MANISHINA, Mouna KAMEL, Cassia TROJAHN and Nathalie AUSSENAC-GILLES PDF
Apprentissage non supervisé pour l’extraction de relations d’hyperonymie à partir de textes scientifiques

Les articles scientifiques, spécifiques d’un domaine, sont riches en connaissances dudit domaine. Ces connaissances non structurées nécessitent le développement des techniques d’extraction de connaissances efficaces, qui consistent à identifier les concepts et les relations qui les relient. Les modèles d’extraction basés sur des approches d’apprentissage supervisé nécessitent l'annotation du corpus, ce qui est coûteux en temps et en ressources humaines. Des travaux récents montrent que les méthodes d’apprentissage non supervisé donnent des résultats équivalents lorsqu’elles sont appliquées à des corpus volumineux. Appliquer de telles approches à des corpus de taille modeste est un nouveau défi. L’approche que nous proposons tente de relever ce défi, en détectant automatiquement les concepts du domaine et en mettant en œuvre un algorithme de classification basé sur les réseaux de neurones, afin d’identifier les relations entre concepts. Notre objectif est de construire un système indépendant du domaine, pour lequel le paradigme de sélection de traits permettrait d’ajuster les paramètres du système en fonction du domaine et de la relation ciblée. L’évaluation menée à ce jour sur les articles issus de la revue Nature du corpus ISTEX montre que notre modèle donne de meilleurs résultats que l’algorithme K-Means, dans les mêmes conditions d’évaluation, ce qui apparaît comme une alternative aux approches supervisées.

Lunch 12h-13h15
Résumé 13h15-13h45 Bruno MALENFANT, Guy LAPALME PDF
Utilisation des citations pour le résumé automatique de la contribution d'articles scientifiques

Une des tâches d'un chercheur est la lecture d'articles scientifiques, que ce soit pour les comparer, pour identifier de nouveaux problèmes ou pour situer son travail dans la littérature courante. Or, des articles du même domaine répètent souvent les mêmes informations. Pour déterminer ce qu'un article ajoute au discours scientifique, un chercheur doit lire plusieurs sections qui contiennent de l'information déjà connue. Une autre suggestion est d'utiliser l'ensemble des citations qui font référence à un article spécifique pour en déduire le contenu important ou marquant. Nous avons appliqué, combiné et modifié des techniques de résumé automatique pour la littérature scientifique pour développer notre système, Citatum. Le texte des citations vers l'article est utilisé pour constituer la base du résumé. L'ensemble des citations permet d'obtenir un résumé reflétant l'opinion de la communauté scientifique. Citatum effectue l'analyse d'articles scientifiques et construit le résumé à l'aide de l'algorithme de Maximal Marginal Relevance appliqué sur les phrases entourant les citations et sur les phrases de l'article. Finalement, nous discuterons nos résultats.

13h45-14h15 Liana ERMAKOVA, Frédérique BORDIGNON, Nicolas TURENNE ANNULÉ
GRAD : une mesure pour évaluer l'informativité de résumés

Cette recherche s’intéresse à l’article scientifique et plus précisément à son résumé ou abstract. Réalisée dans le cadre des chantiers d’usage de l’initiative d’excellence ISTEX, elle vise à comparer la quantité d’informations livrées par l’abstract avec celle du texte intégral (fulltext) de l’article qu’il résume. La communication se propose de détailler l’état de l’art et les limites des mesures existantes. La plupart de ces méthodes (e.g. ROUGE) nécessitent une intervention humaine importante car elles comparent le résumé considéré avec un ensemble des résumés de référence (gold standard). De plus, les métriques basées sur le chevauchement de vocabulaires ne sont pas appropriées pour la comparaison avec le texte intégral. La métrique proposée intitulée GRAD vise a dépasser les défauts des mesures existantes et s’appuie sur la représentation graphique du texte. Nous basant sur l’hypothèse qu’un résumé informatif doit être composé de sommets qui sont connectés avec un maximum d’autres sommets, nous proposons de calculer ce que nous appelons le taux d’informativité (ou le taux de générosité) de l’abstract par rapport au texte intégral. En outre, nous introduisons un cadre entièrement automatique pour évaluer les métriques qui n’exige aucune annotation humaine. Les expérimentations conduites sur une collection d’articles scientifiques disponibles sur la plate-forme ISTEX prouvent que la métrique proposée est meilleure de façon significative comparativement aux mesures existantes.

Fouille de texte 14h15-14h45 Pascal CUXAC, Alain COLLIGNON PDF
ISTEX, un projet national d'archives documentaires : au-delà de l'accès au texte intégral, l'enrichissement des données par méthodes de fouille de textes

Le projet ISTEX (initiative d’excellence en Information Scientifique et Technique) a pour objectif de permettre à la communauté scientifique française d’accéder, à une bibliothèque numérique pluridisciplinaire en texte intégral regroupant l’essentiel des publications scientifiques mondiales. Ces dernières sont accessibles à tous les chercheurs, notamment ceux gravitants autour des thématiques de la fouille de texte, du TAL, de la recherche d’Information, etc. Cela se concrétise par des actions R&D à la fois pour enrichir les données brutes et aussi pour développer de nouveaux algorithmes de fouille et d'analyse de textes. A travers quatre axes d’enrichissement (structuration des documents ; indexation automatique ; reconnaissance d’entités nommées ; catégorisation des documents) nous avons répondu aux trois principaux challenges rencontrés : 1. Mise au point et intégration d'outils : entraînement, adaptation, mise en production; 2. Passage à l’échelle : 20 millions de documents à traiter; 3. Reversement des données. Le résultat d’une ou toute partie de ces travaux a permis de proposer un nouveau processus de diffusion d’ISTEX en construisant des triplets de données alignées et interopérables selon les standards du web sémantique (LOD). Nous construisons maintenant une plateforme dédiée à la fouille de textes directement connectée aux données ISTEX. Les outils mis à disposition, peuvent être développés en collaboration avec tout laboratoire désireux de faire partager une application.

14h45-15h15 Jean-François CHARTIER, Dominic FOREST PPSX
Indexation automatique des documents : application d’une technique de fouille de textes basée sur l’alignement de deux espaces sémantiques

Cette communication présente les résultats d’un projet sur l’indexation automatique des documents textuels. La méthode développée repose sur une procédure d’apprentissage automatique supervisée. Elle est basée sur un espace sémantique des mots-clés d’indexation (ESMC) induit à partir d'une base d’apprentissage et d’un espace sémantique de documents construit à partir d'une base de test (ESD). La prédiction des mots-clés d’indexation est réalisée en calculant la proximité entre les documents de l’ESD et les mots-clés de l’ESMC. Les k mots-clés les plus proches d’un document sont considérés être les mots-clés les plus pertinents pour son indexation. Cette démarche a été appliquée à quatre corpus d’articles scientifiques appartenant à quatre domaines de spécialité différente, soit la chimie (CHIMIE - 782 notices), les sciences de l’information (INFO - 706 notices), la linguistique (LING - 715 notices) et l’archéologie (ARCHEO - 718 notices). Chaque notice contient un document textuel (titre et résumé) et des mots-clés attribués manuellement par des indexeurs professionnels. Ces mots-clés peuvent être de type contrôlé (appartenant à un thésaurus) ou non-contrôlé. Lors de cette communication, nous présenterons la méthode développée dans le cadre de ce projet et nous discuterons des résultats que nous avons obtenus.

Pause café 15h15-15h30
Recherche et découverte d'information 15h30-16h Audilio GONZALES AGUILAR ANNULÉ
La visualisation des réseaux sémantiques et l’hypertexte des auteurs et des mots clés comme moyens de recherche d’information et indexation des revues

L'hétérogénéité et la complexité de l'information sont un défi aux techniques de recherche d'information traditionnels et aux théories de recherche de l’information. (Zhang, J. 2008). Les publications scientifiques n’échappent pas à ce défi, car les systèmes traditionnels d'extraction d'informations et de recherche d'information se font avant tout par mots-clés (Gil-Leiva & Alonso-Arroyo 2007). Notre travail prend en exemple la revue Hermès (http://documents.irevues.inist.fr/handle/2042/8538) pour constituer un corpus qui fera l’objet d’une analyse visuelle. L’utilisation de la visualisation pour la recherche d'information dans la revue peut apporter une explication du point de vue théorique et pratique de l’hypertextualité de l’indexation des publications. Les nouvelles méthodes de visualisation permettent la navigation hypertextuelle dans une publication scientifique et donnent un aperçu visuel et interactif de la revue. Les relations et les liens entre les articles sont rarement illustrés, et l'environnement de récupération manque d'un mécanisme interactif pour la navigation. Avec la méthode d’analyse de réseaux (ARS) on récupère l’espace multidimensionnel de l’information (Bôrner & Polley 2014). Notre article propose de techniques de visualisation interactives qui sont utiles pour l'exploration et l'analyse des textes. Ceci nous permet de visualiser les deux aspects fondamentaux : d’une part, les réseaux sémantiques (résultant de l’ensemble de la revue et les relations avec mots clés) et d’autre part, la spatialité cognitive de l’information.

16h-16h30 Dorsaf HAOUARI, Jian Yun NIE PDF
Traduction automatique contextuelle avec sélection du mot de contexte pertinent

La bibliothèque numérique est une base de documents numériques caractérisée par un large volume de données diverses. Toutefois, trouver le bon document qui répond au besoin de l'utilisateur est une tâche difficile. Pour cela, l'utilisation d'un outil de recherche automatique est nécessaire. Cependant, se limiter à une recherche monolingue restreint l'accès à l'ensemble des documents pertinents dans la langue de la requête et ne retourne pas les documents pertinents écrits dans d'autres langues. En conséquence, le besoin d'un outil de recherche translinguistique qui dépasse les barrières de la langue est nécessaire. La recherche translinguistique nécessite la traduction de la requête. Nous proposons un modèle de traduction qui tient compte des longues dépendances entre les mots. Le modèle est calculé à partir des fréquences relatives des alignements d'un mot cible à un mot source dans un contexte précis. Nous proposons également de sélectionner le mot de contexte pertinent à la traduction. Un mot de contexte est jugé pertinent si la distribution de probabilité de traduction contextuelle est différente de celle hors contextuelle. Nous présenterons les résultats de l’utilisation des différentes méthodes de sélection du mot de contexte pour traduire un mot source et analyserons leur impact sur la performance en recherche de documents.

16h30-17h Jean-Charles LAMIREL PDF
Les nouveaux paradigmes scientifiques : alternance de citations et d'oublis. Étude automatique sur une volumineuse bibliothèque numérique. Exemple de l'astrophysique

Le but de ce travail est de mettre en évidence, dans une volumineuse bibliothèque numérique, l'émergence parfois longue et contestée ou même un temps ignorée de nouveaux paradigmes scientifiques. L’originalité de ce travail est d’exploiter le texte plein des publications en mettant en jeu de manière coordonnée des méthodes d’extraction d’entités nommées et des méthodes d’apprentissage non supervisé spécifiques au texte, capables de fonctionner à grande échelle. La combinaison de ces méthodes représente une nouvelle approche dans le domaine. L’expérimentation que nous menons repose sur un corpus anglophone de 235479 articles sélectionnés à partir d’une requête générale sur les thèmes de l’astronomie et de l'astrophysique, couvrant une large période (190 années entre 1825 et 2014). Nous utilisons des mesures de centralité, dont certaines originales, et des techniques de détection d’entités nommées pour identifier les références à des chercheurs dans les textes (références bibliographiques, bien sûr, mais aussi nominales), puis des méthodes de sélection de variables, basées sur la métrique de maximisation d’étiquetage,pour identifier l’influence de ces chercheurs et de leur recherche à travers le temps. Nous illustrerons notre approche en prenant plus spécifiquement comme exemples la théorie des cordes et celle du big bang. Nous analysons ensuite la pertinence des résultats obtenus à partir de vérité terrain.


var details = document.querySelector("details"); details.open = true; details.open = false; detail .details-marker { } [or] detail>*>.details-marker { } summary::-webkit-details-marker { } summary::-moz-details-marker { } summary::-o-details-marker { } summary::details-marker { } Array.from(document.querySelectorAll('details')).forEach(function(el){ el.open = el.open }) $("details").each(function(k, el) { el.open = el.open; })