French ELTEC NER Open Dataset
收藏hdl.handle.net2025-01-09 收录
下载链接:
http://hdl.handle.net/20.500.11752/OPEN-986
下载链接
链接失效反馈官方服务:
资源简介:
This dataset is derived from the annotation of named entities in a collection of 100 French novels from the "long" 19th century. The collection was assembled in the framework of the COST Action 16204 "Distant reading", and can be found at the following address: [https://distantreading.github.io/ELTeC/fra/index.html].
From these 100 novels, samples of varying size were extracted and annotated with Stanza-NER. The result was loaded onto Tagtog, for manual verification and re-annotation. We used 8 categories of named entities:
e_1 PERS: names of persons
e_2 LOC: place names
e_3 ORG: names of institutions, organisations
e_4 OTHER
e_5 WORK: works of art (only if they can be identified with certainty, e.g. "Mona Lisa" and not "a painting by Leonardo da Vinci")
e_6 DEMO: (names of distinct peoples or social groups: do not annotate "the weavers", but annotate "the Jacobins")
e_7 ROLE: occupation, social position, family role of the person
e_8 EVENT: designation of historical events, which sometimes, but not necessarily, implies a date (e.g. "the revolution of 18..", "the battle of Jarnac")
The data are loaded in the export formats provided by Tagtog:
-- json for annotations
-- html for text (without annotations)
For more information on the steps of data elaboration, annotation choices and quality control, see the data paper mentioned above.
The NER annotation of the entire ELTeC corpus is described in: Francesca Frontini, Carmen Brando, Joanna Byszuk, Ioana Galleron, Diana Santos, and Ranka Stanković. "Named Entity Recognition for Distant Reading in ELTeC". CLARIN Annual Conference 2020, (5-7 October). Virtual Edition. Madrid, Spain: CLARIN, 2020. pp. 37-41, ISSN 2773-2177.
https://office.clarin.eu/v/CE-2020-1738-CLARIN2020_ConferenceProceedings.pdf
--------
Ce jeu de données est issu de l’annotation des entités nommées dans une collection de 100 romans français du “long” XIXe siècle. La collection a été rassemblée dans le cadre de l’action COST 16204 “Distant reading”, et peut être trouvée à l’adresse suivante: [https://distantreading.github.io/ELTeC/fra/index.html].
À partir de ces 100 romans, des échantillons de taille variable ont été extraits, puis annotés avec Stanza-NER. Le résultat a été chargé sur Tagtog, pour vérification manuelle et ré-annotation. Nous avons utilisé 8 catégories d’entités nommées:
e_1 PERS: noms de personnes
e_2 LOC: noms de lieu
e_3 ORG: noms d’institutions, organisations
e_4 OTHER
e_5 WORK: œuvres d’art (seulement si elle peut être identifiée avec certitude, ex. “Mona Lisa” et non pas “un tableau de Leonard de Vinci”)
3_6 DEMO: (noms de peuples ou groupes sociaux distincts: on n’annote pas “les tisserands”, mais on annote “les Jacobins”)
e_7 ROLE: indications sur le métier, la position sociale, le rôle familial de la personne
e_8 EVENT: désignation d’événements historiques, ce qui suppose parfois, mais pas obligatoirement, une date (ex. “la révolution de 18..”, “la bataille de Jarnac”)
Les données sont chargées dans les formats d’export fournis par Tagtog:
-- json pour les annotations
-- html pour les textes (sans les annotations)
Pour plus d’informations sur les étapes d’élaboration des données, les choix d’annotation et le contrôle de la qualité, voir le data paper cité plus haut.
L'annotation des entités nommées du corpus ELTeC complet est décrite dans: Francesca Frontini, Carmen Brando, Joanna Byszuk, Ioana Galleron, Diana Santos, and Ranka Stanković. "Named Entity Recognition for Distant Reading in ELTeC". CLARIN Annual Conference 2020, (5-7 October). Virtual Edition. Madrid, Spain: CLARIN, 2020. pp. 37-41, ISSN 2773-2177.
https://office.clarin.eu/v/CE-2020-1738-CLARIN2020_ConferenceProceedings.pdf
本数据集源于对19世纪“长篇”法国小说集合中命名实体的标注。该集合系在COST行动16204“远程阅读”框架下汇编,可通过以下链接获取:[https://distantreading.github.io/ELTeC/fra/index.html]。自这100部小说中,提取了不同规模的样本,并使用Stanza-NER进行标注。经标注的结果被上传至Tagtog平台,以进行人工验证和重新标注。我们采用了8种命名实体类别:
e_1 PERS:人物名称
e_2 LOC:地名
e_3 ORG:机构、组织名称
e_4 OTHER
e_5 WORK:艺术作品(仅在能够确定其身份的情况下,例如“蒙娜丽莎”,而非“莱昂纳多·达·芬奇的画作”)
e_6 DEMO:(特定民族或社会群体名称:不标注“织工”,而标注“雅各宾派”)
e_7 ROLE:人物职业、社会地位、家庭角色
e_8 EVENT:历史事件的标识,有时但不一定涉及具体日期(例如“18..年的革命”,“雅尔纳克战役”)。数据以Tagtog提供的导出格式加载:
-- 格式用于标注
-- html格式用于文本(不含标注)。有关数据加工步骤、标注选择和质量控制的更多信息,请参阅上述数据论文。ELTeC语料库中命名实体的标注描述如下:Francesca Frontini, Carmen Brando, Joanna Byszuk, Ioana Galleron, Diana Santos, and Ranka Stanković. “ELTeC中的远程阅读命名实体识别”。CLARIN年度会议2020年(10月5-7日)。虚拟版。西班牙马德里:CLARIN,2020。第37-41页,ISBN 2773-2177。
https://office.clarin.eu/v/CE-2020-1738-CLARIN2020_ConferenceProceedings.pdf
提供机构:
hdl.handle.net



