saadob12/chart-to-text
收藏Hugging Face2022-07-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/saadob12/chart-to-text
下载链接
链接失效反馈官方服务:
资源简介:
该数据集仅包含线性化的图表基础数据表及其对应的摘要。数据集来源于Statista,包含训练集、验证集和测试集,数据语言为英语。该数据集用于图表摘要生成任务,旨在帮助人们从图表中推断出关键见解,减少认知和感知上的努力。
提供机构:
saadob12
原始信息汇总
数据集概述
- 数据集内容: 包含图表的线性化底层数据表及其对应摘要。
- 创建者: Kanthara, S., Leong, R. T. K., Lin, X., Masry, A., Thakkar, M., Hoque, E., & Joty, S. (2022)。
- 相关论文: arXiv:2203.06486。
数据集详情
- 数据集来源: 本数据集为原始论文中提到的两个子数据集之一,来源于Statista。
- 图表类型: 覆盖广泛的主题和图表类型,共计44,096个图表。
- 问题变体: 一种情况假设图表的底层数据表可用,另一种情况需要从图表图像中提取数据。
- 模型应用: 使用此数据集的模型为saadob12/t5_C2T_big。
数据集语言
- 语言: 数据和摘要均为英语。
数据集分割
| 分割类型 | 数量 |
|---|---|
| 训练集 | 24367 |
| 验证集 | 5222 |
| 测试集 | 5222 |
贡献者
- 贡献者名称: Saad Obaid ul Islam。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集名为'saadob12/chart-to-text',是一个用于神经图表摘要任务的数据集,旨在解决文本生成中的幻觉问题。它基于论文'Tackling Hallucinations in Neural Chart Summarization'的研究,通过自然语言推理(NLI)方法对训练数据进行预处理,以减少未基于输入的信息。数据集包含优化后的提示和摘要,是原始图表到文本数据的改进版本,适用于图表摘要模型的训练和评估。
以上内容由遇见数据集搜集并总结生成



