Soyoung/HistRED

Name: Soyoung/HistRED
Creator: Soyoung
Published: 2023-08-01 15:05:24
License: 暂无描述

Hugging Face2023-08-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Soyoung/HistRED

下载链接

链接失效反馈

官方服务：

资源简介：

HistRED是一个历史文档级别的关系抽取数据集，主要包含韩文和汉字的文本。数据集来源于《Yeonhaengnok》，这是一部记录朝鲜时代知识分子前往清朝旅行的日记集。数据集包含命名实体、实体之间的关系以及韩文和汉字文本之间的平行关系。数据集可用于评估模型在不同序列长度下的性能，特别适用于非英语或历史语料的关系抽取任务。

提供机构：

Soyoung

原始信息汇总

HistRED数据集概述

数据集基本信息

许可证: CC BY-NC-ND 4.0
任务类别: 令牌分类
语言: 韩语 (ko)
标签: 艺术
大小类别: 1K<n<10K

数据集内容

文本来源: 《Yeonhaengnok》，一本原用汉字书写的古典文献，后被翻译成韩语。
数据集组成:
- 命名实体
- 实体间的关系
- 韩语与汉字文本间的平行关系
关系信息:
- 主体和客体实体（韩语和汉字）
- 关系类型
- 证据句子索引

数据集特性

处理数据集: 通过dataset.py处理，适用于一般NLP模型。
- 单语设置: KoreanDataset, HanjaDataset
- 双语设置: JointDataset
映射字典: ner_map.json 和 label_map.json，用于标签类到索引的映射。
序列级别 (SL): 用于提取不丢失上下文信息的自包含子文本的序列长度单位。

数据集用途

评估模型性能时改变序列长度的测试平台。
非英语或历史语料库中的关系抽取任务。

引用信息

@inproceedings{yang-etal-2023-histred, title = "{H}ist{RED}: A Historical Document-Level Relation Extraction Dataset", author = "Yang, Soyoung and Choi, Minseok and Cho, Youngwoo and Choo, Jaegul", booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = jul, year = "2023", address = "Toronto, Canada", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.acl-long.180", pages = "3207--3224", }

5,000+

优质数据集

54 个

任务类型

进入经典数据集