Soyoung/HistRED
收藏Hugging Face2023-08-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Soyoung/HistRED
下载链接
链接失效反馈官方服务:
资源简介:
HistRED是一个历史文档级别的关系抽取数据集,主要包含韩文和汉字的文本。数据集来源于《Yeonhaengnok》,这是一部记录朝鲜时代知识分子前往清朝旅行的日记集。数据集包含命名实体、实体之间的关系以及韩文和汉字文本之间的平行关系。数据集可用于评估模型在不同序列长度下的性能,特别适用于非英语或历史语料的关系抽取任务。
HistRED是一个历史文档级别的关系抽取数据集,主要包含韩文和汉字的文本。数据集来源于《Yeonhaengnok》,这是一部记录朝鲜时代知识分子前往清朝旅行的日记集。数据集包含命名实体、实体之间的关系以及韩文和汉字文本之间的平行关系。数据集可用于评估模型在不同序列长度下的性能,特别适用于非英语或历史语料的关系抽取任务。
提供机构:
Soyoung
原始信息汇总
HistRED数据集概述
数据集基本信息
- 许可证: CC BY-NC-ND 4.0
- 任务类别: 令牌分类
- 语言: 韩语 (ko)
- 标签: 艺术
- 大小类别: 1K<n<10K
数据集内容
- 文本来源: 《Yeonhaengnok》,一本原用汉字书写的古典文献,后被翻译成韩语。
- 数据集组成:
- 命名实体
- 实体间的关系
- 韩语与汉字文本间的平行关系
- 关系信息:
- 主体和客体实体(韩语和汉字)
- 关系类型
- 证据句子索引
数据集特性
- 处理数据集: 通过
dataset.py处理,适用于一般NLP模型。- 单语设置: KoreanDataset, HanjaDataset
- 双语设置: JointDataset
- 映射字典:
ner_map.json和label_map.json,用于标签类到索引的映射。 - 序列级别 (SL): 用于提取不丢失上下文信息的自包含子文本的序列长度单位。
数据集用途
- 评估模型性能时改变序列长度的测试平台。
- 非英语或历史语料库中的关系抽取任务。
引用信息
@inproceedings{yang-etal-2023-histred, title = "{H}ist{RED}: A Historical Document-Level Relation Extraction Dataset", author = "Yang, Soyoung and Choi, Minseok and Cho, Youngwoo and Choo, Jaegul", booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = jul, year = "2023", address = "Toronto, Canada", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.acl-long.180", pages = "3207--3224", }



