five

Soyoung/HistRED

收藏
Hugging Face2023-08-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Soyoung/HistRED
下载链接
链接失效反馈
官方服务:
资源简介:
HistRED是一个历史文档级别的关系抽取数据集,主要包含韩文和汉字的文本。数据集来源于《Yeonhaengnok》,这是一部记录朝鲜时代知识分子前往清朝旅行的日记集。数据集包含命名实体、实体之间的关系以及韩文和汉字文本之间的平行关系。数据集可用于评估模型在不同序列长度下的性能,特别适用于非英语或历史语料的关系抽取任务。

HistRED是一个历史文档级别的关系抽取数据集,主要包含韩文和汉字的文本。数据集来源于《Yeonhaengnok》,这是一部记录朝鲜时代知识分子前往清朝旅行的日记集。数据集包含命名实体、实体之间的关系以及韩文和汉字文本之间的平行关系。数据集可用于评估模型在不同序列长度下的性能,特别适用于非英语或历史语料的关系抽取任务。
提供机构:
Soyoung
原始信息汇总

HistRED数据集概述

数据集基本信息

  • 许可证: CC BY-NC-ND 4.0
  • 任务类别: 令牌分类
  • 语言: 韩语 (ko)
  • 标签: 艺术
  • 大小类别: 1K<n<10K

数据集内容

  • 文本来源: 《Yeonhaengnok》,一本原用汉字书写的古典文献,后被翻译成韩语。
  • 数据集组成:
    • 命名实体
    • 实体间的关系
    • 韩语与汉字文本间的平行关系
  • 关系信息:
    • 主体和客体实体(韩语和汉字)
    • 关系类型
    • 证据句子索引

数据集特性

  • 处理数据集: 通过dataset.py处理,适用于一般NLP模型。
    • 单语设置: KoreanDataset, HanjaDataset
    • 双语设置: JointDataset
  • 映射字典: ner_map.jsonlabel_map.json,用于标签类到索引的映射。
  • 序列级别 (SL): 用于提取不丢失上下文信息的自包含子文本的序列长度单位。

数据集用途

  • 评估模型性能时改变序列长度的测试平台。
  • 非英语或历史语料库中的关系抽取任务。

引用信息

@inproceedings{yang-etal-2023-histred, title = "{H}ist{RED}: A Historical Document-Level Relation Extraction Dataset", author = "Yang, Soyoung and Choi, Minseok and Cho, Youngwoo and Choo, Jaegul", booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = jul, year = "2023", address = "Toronto, Canada", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.acl-long.180", pages = "3207--3224", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作