KennethEnevoldsen/dane_plus
收藏Hugging Face2023-06-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/KennethEnevoldsen/dane_plus
下载链接
链接失效反馈官方服务:
资源简介:
DaNE+是DaNE数据集的一个版本,其中原始的NER标签已更新为遵循ontonotes注释方案。注释过程使用了在丹麦数据集DANSK上训练的模型进行第一轮注释,然后由Kenneth C. Enevoldsen手动审查和纠正所有差异。数据集还包括来自丹麦依赖树库的附加注释(如词性标签)。数据集的特征包括文本、实体、句子和令牌信息。数据集分为训练集、开发集和测试集,分别包含4383、564和565个示例。
DaNE+是DaNE数据集的一个版本,其中原始的NER标签已更新为遵循ontonotes注释方案。注释过程使用了在丹麦数据集DANSK上训练的模型进行第一轮注释,然后由Kenneth C. Enevoldsen手动审查和纠正所有差异。数据集还包括来自丹麦依赖树库的附加注释(如词性标签)。数据集的特征包括文本、实体、句子和令牌信息。数据集分为训练集、开发集和测试集,分别包含4383、564和565个示例。
提供机构:
KennethEnevoldsen
原始信息汇总
DaNE+ 数据集概述
基本信息
- 语言: 丹麦语 (da)
- 许可证: CC-BY-SA-4.0
- 多语言性: 单语种
- 大小: 1K<n<10K
- 源数据集: dane, 扩展|其他-丹麦-Universal-Dependencies-treebank, DANSK
- 任务类别: 词性标注
- 任务ID: 命名实体识别, 词性标注
- 论文代码链接ID: dane
- 美观名称: DaNE+
数据集特征
- 文本字段:
name: textdtype: string
- 实体字段:
name: entslist:name: startdtype: int64
name: labeldtype: string
name: enddtype: int64
- 句子字段:
name: sentslist:name: startdtype: int64
name: enddtype: int64
- 令牌字段:
name: tokenslist:name: iddtype: int64
name: formdtype: string
name: lemmadtype: string
name: uposdtype: string
name: xposdtype: string
name: headdtype: int64
name: depreldtype: string
name: depsdtype: string
name: miscdtype: string
数据集分割
- 训练集:
num_examples: 4383num_bytes: 7886693
- 开发集:
num_examples: 564num_bytes: 1016350
- 测试集:
num_examples: 565num_bytes: 991137
下载和数据集大小
- 下载大小: 1627548
- 数据集大小: 9894180



