ccdv/mediasum

Name: ccdv/mediasum
Creator: ccdv
Published: 2022-10-25 10:56:04
License: 暂无描述

Hugging Face2022-10-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ccdv/mediasum

下载链接

链接失效反馈

官方服务：

资源简介：

MediaSum是一个大规模的媒体访谈数据集，专门用于对话摘要任务。该数据集包含超过44万训练实例和各1万个验证及测试实例。数据集支持多种配置，允许用户根据需要选择不同的文档连接方式，并且可以预置说话者名称。每个数据集实例包含文档id、文档内容和摘要三个主要字段。

MediaSum is a large-scale media interview dataset dedicated to conversational summarization tasks. It comprises over 440,000 training instances, with 10,000 instances each for validation and test sets respectively. The dataset supports multiple configuration options, allowing users to select different document connection methods as needed, and enables pre-specification of speaker names. Each dataset instance includes three core fields: document ID, document content, and summary.

提供机构：

ccdv

原始信息汇总

MediaSum Dataset Summary

Dataset Overview

Language: English
Multilinguality: Monolingual
Size Categories: 100K<n<1M
Task Categories:
- Summarization
- Text2Text-Generation
Tags: Conditional-Text-Generation

Dataset Details

Source: Copied from MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization
Compatibility: Compatible with the run_summarization.py script from Transformers.

Configurations

Available Configs:
- roberta: Concatenates documents with "</s>"
- newline: Concatenates documents with " "
- bert: Concatenates documents with "[SEP]"
- list: Returns the list of documents instead of a single string
Prepended Configs:
- Adds _prepended to config name to prepend the speaker name before each dialogue: speaker: text. Default is roberta_prepended.

Data Fields

id: Paper ID
document: String/list containing the body of a set of documents
summary: String containing the abstract of the set

Data Splits

Splits: train, validation, and test
Number of Instances:
- Train: 443596
- Validation: 10000
- Test: 10000

搜集汇总

数据集介绍

构建方式

在对话摘要研究领域，MediaSum数据集通过系统化采集美国国家公共广播电台（NPR）和CNN等主流媒体机构的访谈节目构建而成。其构建过程涉及从公开媒体档案中提取原始访谈文本，并依据专业编辑撰写的摘要进行配对。数据经过清洗与格式化处理，确保对话内容与摘要之间保持语义对齐，最终形成包含超过46万条实例的大规模语料库，为对话摘要任务提供了高质量的监督数据。

特点

MediaSum数据集的核心特点在于其大规模与多样性，涵盖政治、文化、科技等多领域访谈内容，呈现真实世界对话的复杂性与动态性。数据以对话形式组织，包含说话人标识与连续文本，支持多种预处理配置，如按说话人前缀或特定分隔符拼接，适应不同预训练模型的需求。数据集划分为训练、验证与测试集，规模分别达到44万、1万与1万条，为模型训练与评估提供了充分的数据支撑。

使用方法

该数据集适用于文本摘要与条件文本生成任务，可直接通过HuggingFace平台加载。使用时需指定配置参数，如`roberta_prepended`可生成带说话人前缀的拼接文本，兼容BART等序列到序列模型。研究人员可利用Transformers库中的摘要脚本进行微调，通过映射字段将`document`作为输入、`summary`作为目标输出，实现端到端的对话摘要模型训练与评估。

背景与挑战

背景概述

对话摘要作为自然语言处理领域的关键任务，旨在从多轮对话中提取核心信息并生成简洁的摘要。2021年，由Chenguang Zhu、Yang Liu、Jie Mei和Michael Zeng等研究人员共同创建的MediaSum数据集，填补了大规模媒体访谈对话摘要数据的空白。该数据集基于超过46万条来自电视和广播访谈的对话记录构建，其核心研究问题聚焦于如何从开放域、多主题的媒体对话中生成准确且连贯的摘要，推动了对话摘要模型在真实场景中的应用与发展，对新闻自动摘要、信息检索等领域产生了显著影响。

当前挑战

MediaSum数据集所解决的领域挑战在于媒体访谈对话的复杂性，包括多轮交互、话题跳跃、口语化表达以及冗余信息，这要求摘要模型具备深层语义理解和信息筛选能力。在构建过程中，挑战主要源于数据收集与标注：原始媒体访谈涉及版权与隐私问题，需进行合规处理；同时，人工撰写高质量摘要需要专业标注者理解对话上下文与核心意图，确保摘要的准确性与流畅性，这一过程耗时且成本高昂。

常用场景

经典使用场景

在对话摘要研究领域，MediaSum数据集以其大规模媒体访谈文本为基石，为模型训练提供了丰富资源。其经典使用场景集中于对话摘要任务，通过将冗长的访谈对话转化为精炼的摘要，帮助研究者评估模型在真实媒体环境下的信息压缩与语言生成能力。该数据集支持多种配置，如基于RoBERTa或BERT的文档拼接方式，便于适配不同预训练模型，推动对话摘要技术的迭代与优化。

衍生相关工作

围绕MediaSum数据集，学术界衍生了一系列经典研究工作。例如，基于该数据集的对话摘要模型对比研究，探索了BART、PEGASUS等序列到序列架构在媒体文本上的适应性；同时，研究者结合说话人角色与对话结构信息，提出了增强的注意力机制，以提升摘要的连贯性与忠实度。这些工作不仅丰富了对话摘要的技术路径，也为后续跨领域摘要数据集的构建提供了方法论参考。

数据集最近研究