artemkramov/coreference-dataset-ua
收藏Hugging Face2023-04-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/artemkramov/coreference-dataset-ua
下载链接
链接失效反馈官方服务:
资源简介:
Silver Ukrainian Coreference Dataset是一个针对乌克兰语的银标共指消解数据集。该数据集通过使用词对齐方法自动从英文数据集生成,具体方法由Andrii Kursin实现。数据集包含文档标识、共指集群、句子列表、词列表和说话者信息。数据集分为训练集和验证集,无测试集。
提供机构:
artemkramov
原始信息汇总
Silver Ukrainian Coreference Dataset
数据集概述
数据集总结
本数据集是一个针对乌克兰语的银标共指消解数据集,通过使用词对齐方法自动生成。该方法由Andrii Kursin实现,数据源自以下英语数据集:https://github.com/d5555/Coreference-dataset。
语言
- 乌克兰语
数据集结构
数据字段
每个样本包含以下字段:
- doc_key:文档标识符。
- clusters:共指簇列表,每个簇包含提及列表,每个提及由两个索引表示:第一个索引表示提及的第一个词,第二个索引表示提及的最后一个词。
- sentences:句子列表,每个句子由词列表表示。
- tokens:词列表。
- speakers:发言人列表,目前填充为虚拟输入。
数据分割
数据集分为两部分:
- 训练集;
- 验证集。
由于数据集是自动生成的,因此没有测试集。
数据集创建
源数据
数据集源自以下数据集:https://github.com/d5555/Coreference-dataset。
贡献者
样本翻译及对齐代码由Andrii Kursin创建,数据集由Artem Kramov生成。



