five

alexandrainst/dacoref

收藏
Hugging Face2023-04-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/alexandrainst/dacoref
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含部分哥本哈根依存树库(Copenhagen Dependency Treebank)的共指注释,主要用于训练共指消解模型。数据集为丹麦语(`da`),包含训练集、验证集和测试集,分别有2,686、332和385个样本。每个样本包括句子ID、文档ID、文本、标记和共指簇等字段。数据集的创建过程涉及对原始注释的自动转换和手动修正,以确保数据质量。数据集由Maria Jung Barrett创建,并由Dan Saattrup Nielsen上传至Hugging Face Hub。

该数据集包含部分哥本哈根依存树库(Copenhagen Dependency Treebank)的共指注释,主要用于训练共指消解模型。数据集为丹麦语(`da`),包含训练集、验证集和测试集,分别有2,686、332和385个样本。每个样本包括句子ID、文档ID、文本、标记和共指簇等字段。数据集的创建过程涉及对原始注释的自动转换和手动修正,以确保数据质量。数据集由Maria Jung Barrett创建,并由Dan Saattrup Nielsen上传至Hugging Face Hub。
提供机构:
alexandrainst
原始信息汇总

数据集概述

数据集名称

  • 名称: DaCoref

数据集描述

  • 语言: 丹麦语 (da)
  • 任务: 用于训练共指消解模型

数据集结构

  • 特征:
    • sent_id (字符串): 句子ID
    • text (字符串): 文档内容
    • tokens (字符串序列): 文档中的词条
    • clusters (整数序列序列): 文档中的共指簇

数据集大小

  • 下载大小: 568857字节
  • 数据集大小: 1098516字节
  • 磁盘总使用量: 1668 KB

数据集分割

分割 样本数 字节数
train 2686 871763
val 332 103309
test 385 123444

许可证

  • 许可证: CC BY-SA 4.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作