ANTILLES

github2022-07-15 更新2024-05-31 收录

下载链接：

https://github.com/qanastek/ANTILLES

下载链接

链接失效反馈

官方服务：

资源简介：

ANTILLES是一个基于UD_French-GSD的开放法语语言学丰富词性标注语料库，原始包含400,399个单词和16,341个句子，通过标签增强脚本增加到60个不同的类别，添加了性别、数、语气、人称、时态或动词形式等语义信息。

ANTILLES is an open French linguistically enriched part-of-speech tagging corpus based on UD_French-GSD. It originally contained 400,399 words and 16,341 sentences, and was expanded via label enhancement scripts to cover 60 distinct categories, with supplementary semantic information such as gender, number, mood, person, tense and verb form added.

创建时间：

2021-11-25

原始信息汇总

数据集概述

数据集名称

ANTILLES：一个开放的法语语言学增强词性标注语料库

数据集描述

ANTILLES 是一个基于 UD_French-GSD 的词性标注语料库，原始创建于2015年，基于universal dependency treebank v2.0。
原始语料库包含400,399个单词（16,341个句子），有17个不同的类别。通过应用标签增强脚本transform.py，现在扩展到60个类别，增加了性别、数目、语气、人称、时态或动词形式等语义信息。

数据集来源

数据集的标签基于LIA_TAGG统计POS标记器，由Frédéric Béchet于2001年编写。

数据集统计

训练集：14,449个文档，平均每个文档24.54个标记。
开发集：1,476个文档，平均每个文档24.19个标记。
测试集：416个文档，平均每个文档24.08个标记。

数据集标签

原始标签：PRON, VERB, SCONJ, ADP, CCONJ, DET, NOUN, ADJ, AUX, ADV, PUNCT, PROPN, NUM, SYM, PART, X, INTJ
新标签：PREP, AUX, ADV, COSUB, COCO, PART, PRON, PDEMMS, PDEMMP, PDEMFS, PDEMFP, PINDMS, PINDMP, PINDFS, PINDFP, PROPN, XFAMIL, NUM, DINTMS, DINTFS, PPOBJMS, PPOBJMP, PPOBJFS, PPOBJFP, PPER1S, PPER2S, PPER3MS, PPER3MP, PPER3FS, PPER3FP, PREFS, PREF, PREFP, VERB, VPPMS, VPPMP, VPPFS, VPPFP, VPPRE, DET, DETMS, DETFS, ADJ, ADJMS, ADJMP, ADJFS, ADJFP, NOUN, NMS, NMP, NFS, NFP, PREL, PRELMS, PRELMP, PRELFS, PRELFP, PINTFS, INTJ, CHIF, SYM, YPFOR, PUNCT, MOTINC, X

数据集许可证

许可证：Creative Commons Attribution-ShareAlike 4.0 International License

数据集贡献者

LABRAK Yanis：LIA, Avignon University, Avignon, France.
DUFOUR Richard：LS2N, Nantes University, Nantes, France.

引用信息

ANTILLES 扩展语料库： latex @inproceedings{labrak:hal-03696042, TITLE = {{ANTILLES: An Open French Linguistically Enriched Part-of-Speech Corpus}}, AUTHOR = {Labrak, Yanis and Dufour, Richard}, URL = {https://hal.archives-ouvertes.fr/hal-03696042}, BOOKTITLE = {{25th International Conference on Text, Speech and Dialogue (TSD)}}, ADDRESS = {Brno, Czech Republic}, PUBLISHER = {{Springer}}, YEAR = {2022}, MONTH = Sep, KEYWORDS = {Part-of-speech corpus ; POS tagging ; Open tools ; Word embeddings ; Bi-LSTM ; CRF ; Transformers}, PDF = {https://hal.archives-ouvertes.fr/hal-03696042/file/ANTILLES_A_freNch_linguisTIcaLLy_Enriched_part_of_Speech_corpus.pdf}, HAL_ID = {hal-03696042}, HAL_VERSION = {v1}, }
UD_French-GSD 语料库： latex @misc{ universaldependencies, title={UniversalDependencies/UD_French-GSD}, url={https://github.com/UniversalDependencies/UD_French-GSD}, journal={GitHub}, author={UniversalDependencies} }
LIA TAGG： latex @techreport{LIA_TAGG, author = {Frédéric Béchet}, title = {LIA_TAGG: a statistical POS tagger + syntactic bracketer}, institution = {Aix-Marseille University & CNRS}, year = {2001} }

搜集汇总

数据集介绍

构建方式

ANTILLES数据集的构建基于UD_French-GSD语料库，该语料库最初于2015年创建，并基于通用依存树库v2.0。通过应用标签增强脚本`transform.py`，原始语料库中的17个词性类别被扩展至60个，新增了性别、数、语气、人称、时态等语义信息。这一扩展过程参考了LIA_TAGG统计词性标注器的详细标注标准，使得数据集在语言学上更为丰富和精确。

特点

ANTILLES数据集的特点在于其高度细化的词性标注体系，涵盖了60个不同的词性类别，包括性别、数、时态等语义信息。该数据集不仅保留了原始UD_French-GSD语料库的基本结构，还通过增强标签进一步提升了其语言学价值。此外，ANTILLES在HuggingFace平台上提供了多个预训练模型，准确率高达97.97%，适用于法语词性标注任务。

使用方法

ANTILLES数据集的使用方法简便，用户可以通过Flair框架加载预训练模型进行词性标注。具体操作包括导入`SequenceTagger`模块并加载`qanastek/pos-french`模型。此外，HuggingFace平台上提供了多个演示空间，用户可以在线体验词性标注功能。数据集还支持通过BibTeX引用相关文献，确保学术研究的规范性。

背景与挑战

背景概述

ANTILLES数据集是一个基于UD_French-GSD的法语词性标注语料库，由法国阿维尼翁大学的Yanis Labrak和南特大学的Richard Dufour于2022年创建。该数据集最初源自2015年发布的通用依存树库v2.0，包含400,399个单词和16,341个句子，涵盖17个词性类别。通过引入LIA_TAGG统计词性标注器的详细标签，ANTILLES扩展了词性标注的粒度，新增了性别、数、语气、人称、时态等语义信息，最终形成了60个类别。该数据集在法语自然语言处理领域具有重要意义，尤其是在词性标注任务中，为研究者提供了丰富的语言学资源。

当前挑战

ANTILLES数据集在构建过程中面临多重挑战。首先，词性标注任务本身要求对法语的复杂语法结构进行精确解析，尤其是法语中丰富的形态变化和语法规则增加了标注的难度。其次，数据集的扩展依赖于LIA_TAGG标注器的输出，如何将原有标签与新标签无缝整合，同时保持标注的一致性和准确性，是构建过程中的一大挑战。此外，数据集的规模虽然较大，但在处理低频词和罕见语法现象时，仍需进一步优化标注策略，以提高模型的泛化能力。这些挑战不仅反映了法语自然语言处理的复杂性，也为未来的研究提供了改进方向。

常用场景

经典使用场景

ANTILLES数据集在自然语言处理领域中被广泛应用于法语词性标注任务。其丰富的语义信息，如性别、数、时态等，使得该数据集成为训练和评估词性标注模型的理想选择。通过结合LIA_TAGG统计词性标注器的细节，ANTILLES为法语文本的形态句法分析提供了高精度的标注数据。

实际应用

ANTILLES数据集在实际应用中广泛用于法语文本的自动化处理，如机器翻译、信息抽取和文本生成等任务。其高精度的标注数据为法语文本的语义理解和句法分析提供了可靠支持。此外，该数据集还被集成到多个开源工具和平台中，如Flair和HuggingFace，为开发者和研究者提供了便捷的使用接口。

衍生相关工作

ANTILLES数据集的发布催生了一系列相关研究工作，特别是在基于深度学习的词性标注模型方面。例如，基于该数据集的CamemBERT和Flair模型在法语词性标注任务中取得了显著的性能提升。此外，ANTILLES还为法语自然语言处理领域的其他任务，如命名实体识别和依存句法分析，提供了重要的数据支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集