five

kimihiroh/timeset

收藏
Hugging Face2024-03-05 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/kimihiroh/timeset
下载链接
链接失效反馈
官方服务:
资源简介:
TimeSET是一个用于从文本中构建时间线的评估数据集,包含多样化的Wikinews文章。该数据集具有两个独特特征:基于显著性的事件选择和部分排序注释。数据集由Susan Holm、Yukari Yamakawa和Kimihiro Hasegawa策划,语言为英语,使用CC-By 4.0许可证。数据集有两个版本:`sample`(50篇文档)和`full`(118篇文档),每个版本都有验证集和测试集。数据集的主要用途是评估自动时间线构建任务的模型。
提供机构:
kimihiroh
原始信息汇总

数据集卡片 for TimeSET

数据集概述

TimeSET 是一个用于从文本构建时间线的评估数据集,包含多样化的 Wikinews 文章。该数据集具有两个独特的特征:基于显著性的事件选择和部分顺序标注。

数据集详情

数据集描述

  • 创建者: Susan Holm, Yukari Yamakawa, Kimihiro Hasegawa
  • 语言: 英语
  • 许可证: CC-By 4.0

数据集来源

  • 仓库: https://github.com/kimihiroh/timeset
  • 论文: https://arxiv.org/abs/2403.00990

用途

该数据集用于评估模型在自动时间线构建任务上的表现。

python from datasets import load_dataset

<formulation> = {nli, pairwise, mrc, timeline}

dataset = load_dataset("kimihiroh/timeset", <formulation>, trust_remote_code=True)

数据集结构

TimeSET 有两个版本:

  • sample 是论文中使用的版本(50 篇文章)。
  • full 是包含更多数据点的新版本(118 篇文章)。

两个版本都有 validationtest 两个分割。

数据集创建

有关数据集创建的更多细节,请参阅 我们的论文

源数据

Wikinews

引用

BibTeX:

bib @article{hasegawa-etal-2024-formulation, title={Formulation Comparison for Timeline Construction using LLMs}, author={Hasegawa, Kimihiro and Kandukuri, Nikhil and Holm, Susan and Yamakawa, Yukari and Mitamura, Teruko}, publisher = {arXiv}, year={2024}, url={https://arxiv.org/abs/2403.00990}, }

数据集卡片作者

Kimihiro Hasegawa

数据集卡片联系

kimihiro@andrew.cmu.edu

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作