five

google/trueteacher

收藏
Hugging Face2023-12-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/google/trueteacher
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于训练事实一致性评估模型的大规模合成数据集,由TrueTeacher论文(Gekhman等,2023)引入。数据集包含来自CNN/DailyMail数据集训练分割的文章的模型生成摘要,这些摘要使用FLAN-PaLM 540B进行事实一致性标注。摘要由不同容量的T5模型生成,这些模型在XSum数据集上进行了微调。数据集包含JSON行,每条数据包括摘要模型、CNN/DailyMail数据集中的原始ID、生成的摘要和二进制标签(1表示事实一致,0表示事实不一致)。数据集适用于英语环境下的研究用途,推荐用于训练摘要的事实一致性评估模型。

这是一个用于训练事实一致性评估模型的大规模合成数据集,由TrueTeacher论文(Gekhman等,2023)引入。数据集包含来自CNN/DailyMail数据集训练分割的文章的模型生成摘要,这些摘要使用FLAN-PaLM 540B进行事实一致性标注。摘要由不同容量的T5模型生成,这些模型在XSum数据集上进行了微调。数据集包含JSON行,每条数据包括摘要模型、CNN/DailyMail数据集中的原始ID、生成的摘要和二进制标签(1表示事实一致,0表示事实不一致)。数据集适用于英语环境下的研究用途,推荐用于训练摘要的事实一致性评估模型。
提供机构:
google
原始信息汇总

TrueTeacher 数据集概述

数据集简介

TrueTeacher 是一个大规模合成数据集,用于训练事实一致性评估模型,由 Gekhman 等人在 2023 年的 TrueTeacher 论文中引入。

数据集详情

该数据集包含从 CNN/DailyMail 数据集的训练部分生成的模型摘要,这些摘要使用 FLAN-PaLM 540B 进行事实一致性标注。摘要由不同容量的摘要模型生成,这些模型是通过在 XSum 数据集上微调 T5 模型创建的。使用的模型容量包括:T5-11B、T5-3B、T5-large、T5-base 和 T5-small。

数据格式

数据以 JSON 行格式存储,包含以下键:

  • "summarization_model":用于生成摘要的摘要模型。
  • "cnndm_id":CNN/DailyMail 数据集的原始 ID,用于检索相应的文章。
  • "summary":模型生成的摘要。
  • "label":二进制标签(1 - 事实一致,0 - 事实不一致)。

示例数据项: json { "summarization_model": "T5-11B", "cnndm_id": "f72048a23154de8699c307e2f41157abbfcae261", "summary": "Childrens brains are being damaged by prolonged internet access, a former childrens television presenter has warned.", "label": "1" }

数据集加载

使用数据集时,需要从 CNN/DailyMail 数据集中获取相关文档。以下代码可用于此目的: python from datasets import load_dataset from tqdm import tqdm

trueteacher_data = load_dataset("google/trueteacher", split=train) cnn_dailymail_data = load_dataset("cnn_dailymail", version="3.0.0", split=train) cnn_dailymail_articles_by_id = {example[id]: example[article] for example in cnn_dailymail_data} trueteacher_data_with_documents = [] for example in tqdm(trueteacher_data): example[document] = cnn_dailymail_articles_by_id[example[cnndm_id]] trueteacher_data_with_documents.append(example)

预期用途

该数据集适用于英语研究用途(非商业),推荐用于训练摘要的事实一致性评估模型。

超出范围的用途

任何违反 cc-by-nc-4.0 许可证的用途,以及非英语的使用情况。

引用

如果在研究出版物中使用此数据集,请引用 TrueTeacher 论文以及提到的 CNN/DailyMail、XSum、T5 和 FLAN 论文。

@misc{gekhman2023trueteacher, title={TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models}, author={Zorik Gekhman and Jonathan Herzig and Roee Aharoni and Chen Elkind and Idan Szpektor}, year={2023}, eprint={2305.11171}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
TrueTeacher是一个大规模合成数据集,用于训练事实一致性评估模型,包含模型生成的CNN/DailyMail文章摘要,并使用FLAN-PaLM 540B进行标注(标签为1表示事实一致,0表示不一致)。数据集规模为1.38M行,格式为JSON,适用于英语非商业研究,旨在提升摘要生成中事实一致性的评估能力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作