kimihiroh/timeset
收藏Hugging Face2024-03-05 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/kimihiroh/timeset
下载链接
链接失效反馈官方服务:
资源简介:
TimeSET是一个用于从文本中构建时间线的评估数据集,包含多样化的Wikinews文章。该数据集具有两个独特特征:基于显著性的事件选择和部分排序注释。数据集由Susan Holm、Yukari Yamakawa和Kimihiro Hasegawa策划,语言为英语,使用CC-By 4.0许可证。数据集有两个版本:`sample`(50篇文档)和`full`(118篇文档),每个版本都有验证集和测试集。数据集的主要用途是评估自动时间线构建任务的模型。
提供机构:
kimihiroh
原始信息汇总
数据集卡片 for TimeSET
数据集概述
TimeSET 是一个用于从文本构建时间线的评估数据集,包含多样化的 Wikinews 文章。该数据集具有两个独特的特征:基于显著性的事件选择和部分顺序标注。
数据集详情
数据集描述
- 创建者: Susan Holm, Yukari Yamakawa, Kimihiro Hasegawa
- 语言: 英语
- 许可证: CC-By 4.0
数据集来源
- 仓库: https://github.com/kimihiroh/timeset
- 论文: https://arxiv.org/abs/2403.00990
用途
该数据集用于评估模型在自动时间线构建任务上的表现。
python from datasets import load_dataset
<formulation> = {nli, pairwise, mrc, timeline}
dataset = load_dataset("kimihiroh/timeset", <formulation>, trust_remote_code=True)
数据集结构
TimeSET 有两个版本:
sample是论文中使用的版本(50 篇文章)。full是包含更多数据点的新版本(118 篇文章)。
两个版本都有 validation 和 test 两个分割。
数据集创建
有关数据集创建的更多细节,请参阅 我们的论文。
源数据
Wikinews
引用
BibTeX:
bib @article{hasegawa-etal-2024-formulation, title={Formulation Comparison for Timeline Construction using LLMs}, author={Hasegawa, Kimihiro and Kandukuri, Nikhil and Holm, Susan and Yamakawa, Yukari and Mitamura, Teruko}, publisher = {arXiv}, year={2024}, url={https://arxiv.org/abs/2403.00990}, }
数据集卡片作者
Kimihiro Hasegawa
数据集卡片联系
kimihiro@andrew.cmu.edu



