google/trueteacher

Name: google/trueteacher
Creator: google
Published: 2023-12-26 10:16:13
License: 暂无描述

Hugging Face2023-12-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/google/trueteacher

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于训练事实一致性评估模型的大规模合成数据集，由TrueTeacher论文（Gekhman等，2023）引入。数据集包含来自CNN/DailyMail数据集训练分割的文章的模型生成摘要，这些摘要使用FLAN-PaLM 540B进行事实一致性标注。摘要由不同容量的T5模型生成，这些模型在XSum数据集上进行了微调。数据集包含JSON行，每条数据包括摘要模型、CNN/DailyMail数据集中的原始ID、生成的摘要和二进制标签（1表示事实一致，0表示事实不一致）。数据集适用于英语环境下的研究用途，推荐用于训练摘要的事实一致性评估模型。

提供机构：

google

原始信息汇总

TrueTeacher 数据集概述

数据集简介

TrueTeacher 是一个大规模合成数据集，用于训练事实一致性评估模型，由 Gekhman 等人在 2023 年的 TrueTeacher 论文中引入。

数据集详情

该数据集包含从 CNN/DailyMail 数据集的训练部分生成的模型摘要，这些摘要使用 FLAN-PaLM 540B 进行事实一致性标注。摘要由不同容量的摘要模型生成，这些模型是通过在 XSum 数据集上微调 T5 模型创建的。使用的模型容量包括：T5-11B、T5-3B、T5-large、T5-base 和 T5-small。

数据格式

数据以 JSON 行格式存储，包含以下键：

"summarization_model"：用于生成摘要的摘要模型。
"cnndm_id"：CNN/DailyMail 数据集的原始 ID，用于检索相应的文章。
"summary"：模型生成的摘要。
"label"：二进制标签（1 - 事实一致，0 - 事实不一致）。

示例数据项： json { "summarization_model": "T5-11B", "cnndm_id": "f72048a23154de8699c307e2f41157abbfcae261", "summary": "Childrens brains are being damaged by prolonged internet access, a former childrens television presenter has warned.", "label": "1" }

数据集加载

使用数据集时，需要从 CNN/DailyMail 数据集中获取相关文档。以下代码可用于此目的： python from datasets import load_dataset from tqdm import tqdm

trueteacher_data = load_dataset("google/trueteacher", split=train) cnn_dailymail_data = load_dataset("cnn_dailymail", version="3.0.0", split=train) cnn_dailymail_articles_by_id = {example[id]: example[article] for example in cnn_dailymail_data} trueteacher_data_with_documents = [] for example in tqdm(trueteacher_data): example[document] = cnn_dailymail_articles_by_id[example[cnndm_id]] trueteacher_data_with_documents.append(example)

预期用途

该数据集适用于英语研究用途（非商业），推荐用于训练摘要的事实一致性评估模型。

超出范围的用途

任何违反 cc-by-nc-4.0 许可证的用途，以及非英语的使用情况。

引用

如果在研究出版物中使用此数据集，请引用 TrueTeacher 论文以及提到的 CNN/DailyMail、XSum、T5 和 FLAN 论文。

@misc{gekhman2023trueteacher, title={TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models}, author={Zorik Gekhman and Jonathan Herzig and Roee Aharoni and Chen Elkind and Idan Szpektor}, year={2023}, eprint={2305.11171}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

背景与挑战

背景概述

TrueTeacher是一个大规模合成数据集，用于训练事实一致性评估模型，包含模型生成的CNN/DailyMail文章摘要，并使用FLAN-PaLM 540B进行标注（标签为1表示事实一致，0表示不一致）。数据集规模为1.38M行，格式为JSON，适用于英语非商业研究，旨在提升摘要生成中事实一致性的评估能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集