OLAC Record
oai:dspace-clarin-it.ilc.cnr.it:20.500.11752/OPEN-986

Metadata
Title:French ELTEC NER Open Dataset
Bibliographic Citation:http://hdl.handle.net/20.500.11752/OPEN-986
Creator:Brando, Carmen
Frontini, Francesca
Galleron, Ioana
Date (W3CDTF):2023-02-06T11:30:11Z
Date Available:2023-02-06T11:30:11Z
Description:This dataset is derived from the annotation of named entities in a collection of 100 French novels from the "long" 19th century. The collection was assembled in the framework of the COST Action 16204 "Distant reading", and can be found at the following address: [https://distantreading.github.io/ELTeC/fra/index.html]. From these 100 novels, samples of varying size were extracted and annotated with Stanza-NER. The result was loaded onto Tagtog, for manual verification and re-annotation. We used 8 categories of named entities: PERS: names of persons ORG: names of institutions, organisations ROLE: occupation, social position, family role of the person LOC: place names WORK: works of art (only if they can be identified with certainty, e.g. "Mona Lisa" and not "a painting by Leonardo da Vinci") DEMO (names of distinct peoples or social groups: do not annotate "the weavers", but annotate "the Jacobins") EVENT: designation of historical events, which sometimes, but not necessarily, implies a date (e.g. "the revolution of 18..", "the battle of Jarnac") OTHER The data are loaded in the export formats provided by Tagtog: -- json for annotations -- html for text (without annotations) For more information on the steps of data elaboration, annotation choices and quality control, see the data paper mentioned above. The NER annotation of the entire ELTeC corpus is described in: Francesca Frontini, Carmen Brando, Joanna Byszuk, Ioana Galleron, Diana Santos, and Ranka Stanković. "Named Entity Recognition for Distant Reading in ELTeC". CLARIN Annual Conference 2020, (5-7 October). Virtual Edition. Madrid, Spain: CLARIN, 2020. pp. 37-41, ISSN 2773-2177. https://office.clarin.eu/v/CE-2020-1738-CLARIN2020_ConferenceProceedings.pdf -------- Ce jeu de données est issu de l’annotation des entités nommées dans une collection de 100 romans français du “long” XIXe siècle. La collection a été rassemblée dans le cadre de l’action COST 16204 “Distant reading”, et peut être trouvée à l’adresse suivante: [https://distantreading.github.io/ELTeC/fra/index.html]. À partir de ces 100 romans, des échantillons de taille variable ont été extraits, puis annotés avec Stanza-NER. Le résultat a été chargé sur Tagtog, pour vérification manuelle et ré-annotation. Nous avons utilisé 8 catégories d’entités nommées: PERS: noms de personnes ORG: noms d’institutions, organisations ROLE: indications sur le métier, la position sociale, le rôle familial de la personne LOC: noms de lieu WORK: oeuvres d’art (seulement si elle peut être identifiée avec certitude, ex. “Mona Lisa” et non pas “un tableau de Leonard de Vinci”) DEMO (noms de peuples ou groupes sociaux distincts: on n’annote pas “les tisserands”, mais on annote “les Jacobins”) EVENT: désignation d’événements historiques, ce qui suppose parfois, mais pas obligatoirement, une date (ex. “la révolution de 18..”, “la bataille de Jarnac”) OTHER Les données sont chargées dans les formats d’export fournis par Tagtog: -- json pour les annotations -- html pour les textes (sans les annotations) Pour plus d’informations sur les étapes d’élaboration des données, les choix d’annotation et le contrôle de la qualité, voir le data paper cité plus haut. L'annotation des entités nommées du corpus ELTeC complet est décrite dans: Francesca Frontini, Carmen Brando, Joanna Byszuk, Ioana Galleron, Diana Santos, and Ranka Stanković. "Named Entity Recognition for Distant Reading in ELTeC". CLARIN Annual Conference 2020, (5-7 October). Virtual Edition. Madrid, Spain: CLARIN, 2020. pp. 37-41, ISSN 2773-2177. https://office.clarin.eu/v/CE-2020-1738-CLARIN2020_ConferenceProceedings.pdf
Identifier (URI):http://hdl.handle.net/20.500.11752/OPEN-986
Language:French
Language (ISO639):fra
Publisher:CRH-EHESS
Istituto di Linguistica Computazionale “A. Zampolli” - Consiglio Nazionale delle Ricerche (ILC-CNR)
Université Sorbonne Nouvelle, laboratoire Lattice - UMR 8094
Rights:Creative Commons - Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)
http://creativecommons.org/licenses/by-sa/4.0/
Subject:NER
Named Entities
Novels
Literary Characters
ELTEC Cost Action
Type:corpus
Type (DCMI):Text
Type (OLAC):primary_text

OLAC Info

Archive:  ILC-CNR for CLARIN-IT repository hosted at Institute for Computational Linguistics "A. Zampolli", National Research Council, in Pisa
Description:  http://www.language-archives.org/archive/dspace-clarin-it.ilc.cnr.it
GetRecord:  OAI-PMH request for OLAC format
GetRecord:  Pre-generated XML file

OAI Info

OaiIdentifier:  oai:dspace-clarin-it.ilc.cnr.it:20.500.11752/OPEN-986
DateStamp:  2023-02-06
GetRecord:  OAI-PMH request for simple DC format

Search Info

Citation: Brando, Carmen; Frontini, Francesca; Galleron, Ioana. 2023. CRH-EHESS.
Terms: area_Europe country_FR dcmi_Text iso639_fra olac_primary_text


http://www.language-archives.org/item.php/oai:dspace-clarin-it.ilc.cnr.it:20.500.11752/OPEN-986
Up-to-date as of: Tue Sep 19 0:43:06 EDT 2023