five

varox34/demo

收藏
Hugging Face2024-01-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/varox34/demo
下载链接
链接失效反馈
官方服务:
资源简介:
UD_Spanish-AnCora数据集是从AnCora语料库的注释投影到Universal Dependencies树库中生成的,主要用于西班牙语的词性标注任务。数据集包含三个conllu文件,每个文件包含单词行、空白行和注释行。单词行包含10个字段,如ID、FORM、LEMMA等。数据集的语言为西班牙语(es-ES),并且没有包含个人或敏感信息。数据集的创建过程涉及将AnCora项目的注释转换为依赖关系,并由Universal Dependencies团队进行进一步处理。数据集的使用有助于西班牙语语言模型的发展。

UD_Spanish-AnCora数据集是从AnCora语料库的注释投影到Universal Dependencies树库中生成的,主要用于西班牙语的词性标注任务。数据集包含三个conllu文件,每个文件包含单词行、空白行和注释行。单词行包含10个字段,如ID、FORM、LEMMA等。数据集的语言为西班牙语(es-ES),并且没有包含个人或敏感信息。数据集的创建过程涉及将AnCora项目的注释转换为依赖关系,并由Universal Dependencies团队进行进一步处理。数据集的使用有助于西班牙语语言模型的发展。
提供机构:
varox34
原始信息汇总

UD_Spanish-AnCora 数据集概述

数据集描述

数据集摘要

该数据集包含来自 AnCora 语料库 的注释,这些注释被投影到 Universal Dependencies 树库 上。我们使用该语料库的词性标注(POS)注释作为 EvalEs 西班牙语语言基准的一部分。

支持的任务和排行榜

  • 词性标注(POS tagging)

语言

  • 该数据集为西班牙语(es-ES)。

数据集结构

数据实例

数据集包含三个 conllu 文件。注释以纯文本文件(UTF-8 编码,NFC 归一化,仅使用 LF 字符作为换行符,文件末尾包含 LF 字符)形式编码,包含三种类型的行:

  1. 单词行,包含一个单词/标记的 10 个字段,由单个制表符分隔。
  2. 空白行,标记句子边界。
  3. 注释行,以井号(#)开头。

数据字段

单词行包含以下字段:

  1. ID:单词索引,每个新句子从 1 开始;可能是多词标记的范围;可能是空节点的十进制数(十进制数可以小于 1,但必须大于 0)。
  2. FORM:单词形式或标点符号。
  3. LEMMA:词形或词干。
  4. UPOS:通用词性标签。
  5. XPOS:特定语言的词性标签;如果不可用则为下划线。
  6. FEATS:来自通用特征库存或定义的语言特定扩展的形态特征列表;如果不可用则为下划线。
  7. HEAD:当前单词的头,可以是 ID 值或零(0)。
  8. DEPREL:与 HEAD 的通用依赖关系(如果 HEAD = 0 则为根)或定义的语言特定子类型之一。
  9. DEPS:增强依赖图,以头-依赖关系对列表的形式。
  10. MISC:任何其他注释。

数据分割

  • es_ancora-ud-train.conllu
  • es_ancora-ud-dev.conllu
  • es_ancora-ud-test.conllu

数据集创建

源数据

原始注释在成分框架中完成,作为巴塞罗那大学 AnCora 项目 的一部分。它被 Universal Dependencies 团队 转换为依赖关系,并用于 CoNLL 2009 共享任务。CoNLL 2009 版本后来被转换为 HamleDT 和 Universal Dependencies。

注释

注释过程

有关 AnCora 注释的更多信息,请访问 AnCora 网站

注释者

有关 AnCora 注释团队的更多信息,请访问 AnCora 网站

个人和敏感信息

数据集中不包含个人或敏感信息。

使用数据的注意事项

数据集的社会影响

该数据集有助于西班牙语语言模型的发展。

附加信息

许可信息

该工作根据 <a rel="license" href="https://creativecommons.org/licenses/by/4.0/">CC Attribution 4.0 International License</a> 进行许可。

引用信息

使用该语料库时,必须引用以下论文:

  • Taulé, M., M.A. Martí, M. Recasens (2008) Ancora: Multilevel Annotated Corpora for Catalan and Spanish, Proceedings of 6th International Conference on Language Resources and Evaluation. Marrakesh (Morocco).

引用 Universal Dependencies 项目时,请引用:

  • Rueter, J. (Creator), Erina, O. (Contributor), Klementeva, J. (Contributor), Ryabov, I. (Contributor), Tyers, F. M. (Contributor), Zeman, D. (Contributor), Nivre, J. (Creator) (15 Nov 2020). Universal Dependencies version 2.7 Erzya JR. Universal Dependencies Consortium.
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作