alexandrainst/dacoref
收藏Hugging Face2023-04-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/alexandrainst/dacoref
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含部分哥本哈根依存树库(Copenhagen Dependency Treebank)的共指注释,主要用于训练共指消解模型。数据集为丹麦语(`da`),包含训练集、验证集和测试集,分别有2,686、332和385个样本。每个样本包括句子ID、文档ID、文本、标记和共指簇等字段。数据集的创建过程涉及对原始注释的自动转换和手动修正,以确保数据质量。数据集由Maria Jung Barrett创建,并由Dan Saattrup Nielsen上传至Hugging Face Hub。
该数据集包含部分哥本哈根依存树库(Copenhagen Dependency Treebank)的共指注释,主要用于训练共指消解模型。数据集为丹麦语(`da`),包含训练集、验证集和测试集,分别有2,686、332和385个样本。每个样本包括句子ID、文档ID、文本、标记和共指簇等字段。数据集的创建过程涉及对原始注释的自动转换和手动修正,以确保数据质量。数据集由Maria Jung Barrett创建,并由Dan Saattrup Nielsen上传至Hugging Face Hub。
提供机构:
alexandrainst
原始信息汇总
数据集概述
数据集名称
- 名称: DaCoref
数据集描述
- 语言: 丹麦语 (
da) - 任务: 用于训练共指消解模型
数据集结构
- 特征:
sent_id(字符串): 句子IDtext(字符串): 文档内容tokens(字符串序列): 文档中的词条clusters(整数序列序列): 文档中的共指簇
数据集大小
- 下载大小: 568857字节
- 数据集大小: 1098516字节
- 磁盘总使用量: 1668 KB
数据集分割
| 分割 | 样本数 | 字节数 |
|---|---|---|
| train | 2686 | 871763 |
| val | 332 | 103309 |
| test | 385 | 123444 |
许可证
- 许可证: CC BY-SA 4.0



