varox34/demo
收藏Hugging Face2024-01-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/varox34/demo
下载链接
链接失效反馈官方服务:
资源简介:
UD_Spanish-AnCora数据集是从AnCora语料库的注释投影到Universal Dependencies树库中生成的,主要用于西班牙语的词性标注任务。数据集包含三个conllu文件,每个文件包含单词行、空白行和注释行。单词行包含10个字段,如ID、FORM、LEMMA等。数据集的语言为西班牙语(es-ES),并且没有包含个人或敏感信息。数据集的创建过程涉及将AnCora项目的注释转换为依赖关系,并由Universal Dependencies团队进行进一步处理。数据集的使用有助于西班牙语语言模型的发展。
UD_Spanish-AnCora数据集是从AnCora语料库的注释投影到Universal Dependencies树库中生成的,主要用于西班牙语的词性标注任务。数据集包含三个conllu文件,每个文件包含单词行、空白行和注释行。单词行包含10个字段,如ID、FORM、LEMMA等。数据集的语言为西班牙语(es-ES),并且没有包含个人或敏感信息。数据集的创建过程涉及将AnCora项目的注释转换为依赖关系,并由Universal Dependencies团队进行进一步处理。数据集的使用有助于西班牙语语言模型的发展。
提供机构:
varox34
原始信息汇总
UD_Spanish-AnCora 数据集概述
数据集描述
数据集摘要
该数据集包含来自 AnCora 语料库 的注释,这些注释被投影到 Universal Dependencies 树库 上。我们使用该语料库的词性标注(POS)注释作为 EvalEs 西班牙语语言基准的一部分。
支持的任务和排行榜
- 词性标注(POS tagging)
语言
- 该数据集为西班牙语(
es-ES)。
数据集结构
数据实例
数据集包含三个 conllu 文件。注释以纯文本文件(UTF-8 编码,NFC 归一化,仅使用 LF 字符作为换行符,文件末尾包含 LF 字符)形式编码,包含三种类型的行:
- 单词行,包含一个单词/标记的 10 个字段,由单个制表符分隔。
- 空白行,标记句子边界。
- 注释行,以井号(#)开头。
数据字段
单词行包含以下字段:
- ID:单词索引,每个新句子从 1 开始;可能是多词标记的范围;可能是空节点的十进制数(十进制数可以小于 1,但必须大于 0)。
- FORM:单词形式或标点符号。
- LEMMA:词形或词干。
- UPOS:通用词性标签。
- XPOS:特定语言的词性标签;如果不可用则为下划线。
- FEATS:来自通用特征库存或定义的语言特定扩展的形态特征列表;如果不可用则为下划线。
- HEAD:当前单词的头,可以是 ID 值或零(0)。
- DEPREL:与 HEAD 的通用依赖关系(如果 HEAD = 0 则为根)或定义的语言特定子类型之一。
- DEPS:增强依赖图,以头-依赖关系对列表的形式。
- MISC:任何其他注释。
数据分割
es_ancora-ud-train.conllues_ancora-ud-dev.conllues_ancora-ud-test.conllu
数据集创建
源数据
原始注释在成分框架中完成,作为巴塞罗那大学 AnCora 项目 的一部分。它被 Universal Dependencies 团队 转换为依赖关系,并用于 CoNLL 2009 共享任务。CoNLL 2009 版本后来被转换为 HamleDT 和 Universal Dependencies。
注释
注释过程
有关 AnCora 注释的更多信息,请访问 AnCora 网站。
注释者
有关 AnCora 注释团队的更多信息,请访问 AnCora 网站。
个人和敏感信息
数据集中不包含个人或敏感信息。
使用数据的注意事项
数据集的社会影响
该数据集有助于西班牙语语言模型的发展。
附加信息
许可信息
该工作根据 <a rel="license" href="https://creativecommons.org/licenses/by/4.0/">CC Attribution 4.0 International License</a> 进行许可。
引用信息
使用该语料库时,必须引用以下论文:
- Taulé, M., M.A. Martí, M. Recasens (2008) Ancora: Multilevel Annotated Corpora for Catalan and Spanish, Proceedings of 6th International Conference on Language Resources and Evaluation. Marrakesh (Morocco).
引用 Universal Dependencies 项目时,请引用:
- Rueter, J. (Creator), Erina, O. (Contributor), Klementeva, J. (Contributor), Ryabov, I. (Contributor), Tyers, F. M. (Contributor), Zeman, D. (Contributor), Nivre, J. (Creator) (15 Nov 2020). Universal Dependencies version 2.7 Erzya JR. Universal Dependencies Consortium.



