ccdv/mediasum

Hugging Face2022-10-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ccdv/mediasum

下载链接

链接失效反馈

资源简介：

MediaSum是一个大规模的媒体访谈数据集，专门用于对话摘要任务。该数据集包含超过44万训练实例和各1万个验证及测试实例。数据集支持多种配置，允许用户根据需要选择不同的文档连接方式，并且可以预置说话者名称。每个数据集实例包含文档id、文档内容和摘要三个主要字段。

提供机构：

ccdv

原始信息汇总

MediaSum Dataset Summary

Dataset Overview

Language: English
Multilinguality: Monolingual
Size Categories: 100K<n<1M
Task Categories:
- Summarization
- Text2Text-Generation
Tags: Conditional-Text-Generation

Dataset Details

Source: Copied from MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization
Compatibility: Compatible with the run_summarization.py script from Transformers.

Configurations

Available Configs:
- roberta: Concatenates documents with "</s>"
- newline: Concatenates documents with " "
- bert: Concatenates documents with "[SEP]"
- list: Returns the list of documents instead of a single string
Prepended Configs:
- Adds _prepended to config name to prepend the speaker name before each dialogue: speaker: text. Default is roberta_prepended.

Data Fields

id: Paper ID
document: String/list containing the body of a set of documents
summary: String containing the abstract of the set

Data Splits

Splits: train, validation, and test
Number of Instances:
- Train: 443596
- Validation: 10000
- Test: 10000

搜集汇总

数据集介绍

构建方式

在对话摘要研究领域，MediaSum数据集通过系统化采集美国国家公共广播电台（NPR）和CNN等主流媒体机构的访谈节目构建而成。其构建过程涉及从公开媒体档案中提取原始访谈文本，并依据专业编辑撰写的摘要进行配对。数据经过清洗与格式化处理，确保对话内容与摘要之间保持语义对齐，最终形成包含超过46万条实例的大规模语料库，为对话摘要任务提供了高质量的监督数据。

特点

MediaSum数据集的核心特点在于其大规模与多样性，涵盖政治、文化、科技等多领域访谈内容，呈现真实世界对话的复杂性与动态性。数据以对话形式组织，包含说话人标识与连续文本，支持多种预处理配置，如按说话人前缀或特定分隔符拼接，适应不同预训练模型的需求。数据集划分为训练、验证与测试集，规模分别达到44万、1万与1万条，为模型训练与评估提供了充分的数据支撑。

使用方法

该数据集适用于文本摘要与条件文本生成任务，可直接通过HuggingFace平台加载。使用时需指定配置参数，如`roberta_prepended`可生成带说话人前缀的拼接文本，兼容BART等序列到序列模型。研究人员可利用Transformers库中的摘要脚本进行微调，通过映射字段将`document`作为输入、`summary`作为目标输出，实现端到端的对话摘要模型训练与评估。

背景与挑战

背景概述

对话摘要作为自然语言处理领域的关键任务，旨在从多轮对话中提取核心信息并生成简洁的摘要。2021年，由Chenguang Zhu、Yang Liu、Jie Mei和Michael Zeng等研究人员共同创建的MediaSum数据集，填补了大规模媒体访谈对话摘要数据的空白。该数据集基于超过46万条来自电视和广播访谈的对话记录构建，其核心研究问题聚焦于如何从开放域、多主题的媒体对话中生成准确且连贯的摘要，推动了对话摘要模型在真实场景中的应用与发展，对新闻自动摘要、信息检索等领域产生了显著影响。

当前挑战

MediaSum数据集所解决的领域挑战在于媒体访谈对话的复杂性，包括多轮交互、话题跳跃、口语化表达以及冗余信息，这要求摘要模型具备深层语义理解和信息筛选能力。在构建过程中，挑战主要源于数据收集与标注：原始媒体访谈涉及版权与隐私问题，需进行合规处理；同时，人工撰写高质量摘要需要专业标注者理解对话上下文与核心意图，确保摘要的准确性与流畅性，这一过程耗时且成本高昂。

常用场景

经典使用场景

在对话摘要研究领域，MediaSum数据集以其大规模媒体访谈文本为基石，为模型训练提供了丰富资源。其经典使用场景集中于对话摘要任务，通过将冗长的访谈对话转化为精炼的摘要，帮助研究者评估模型在真实媒体环境下的信息压缩与语言生成能力。该数据集支持多种配置，如基于RoBERTa或BERT的文档拼接方式，便于适配不同预训练模型，推动对话摘要技术的迭代与优化。

衍生相关工作

围绕MediaSum数据集，学术界衍生了一系列经典研究工作。例如，基于该数据集的对话摘要模型对比研究，探索了BART、PEGASUS等序列到序列架构在媒体文本上的适应性；同时，研究者结合说话人角色与对话结构信息，提出了增强的注意力机制，以提升摘要的连贯性与忠实度。这些工作不仅丰富了对话摘要的技术路径，也为后续跨领域摘要数据集的构建提供了方法论参考。

数据集最近研究