five

ccdv/mediasum

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ccdv/mediasum
下载链接
链接失效反馈
资源简介:
MediaSum是一个大规模的媒体访谈数据集,专门用于对话摘要任务。该数据集包含超过44万训练实例和各1万个验证及测试实例。数据集支持多种配置,允许用户根据需要选择不同的文档连接方式,并且可以预置说话者名称。每个数据集实例包含文档id、文档内容和摘要三个主要字段。
提供机构:
ccdv
原始信息汇总

MediaSum Dataset Summary

Dataset Overview

  • Language: English
  • Multilinguality: Monolingual
  • Size Categories: 100K<n<1M
  • Task Categories:
    • Summarization
    • Text2Text-Generation
  • Tags: Conditional-Text-Generation

Dataset Details

Configurations

  • Available Configs:
    • roberta: Concatenates documents with "</s>"
    • newline: Concatenates documents with " "
    • bert: Concatenates documents with "[SEP]"
    • list: Returns the list of documents instead of a single string
  • Prepended Configs:
    • Adds _prepended to config name to prepend the speaker name before each dialogue: speaker: text. Default is roberta_prepended.

Data Fields

  • id: Paper ID
  • document: String/list containing the body of a set of documents
  • summary: String containing the abstract of the set

Data Splits

  • Splits: train, validation, and test
  • Number of Instances:
    • Train: 443596
    • Validation: 10000
    • Test: 10000
搜集汇总
数据集介绍
构建方式
在对话摘要研究领域,MediaSum数据集通过系统化采集美国国家公共广播电台(NPR)和CNN等主流媒体机构的访谈节目构建而成。其构建过程涉及从公开媒体档案中提取原始访谈文本,并依据专业编辑撰写的摘要进行配对。数据经过清洗与格式化处理,确保对话内容与摘要之间保持语义对齐,最终形成包含超过46万条实例的大规模语料库,为对话摘要任务提供了高质量的监督数据。
特点
MediaSum数据集的核心特点在于其大规模与多样性,涵盖政治、文化、科技等多领域访谈内容,呈现真实世界对话的复杂性与动态性。数据以对话形式组织,包含说话人标识与连续文本,支持多种预处理配置,如按说话人前缀或特定分隔符拼接,适应不同预训练模型的需求。数据集划分为训练、验证与测试集,规模分别达到44万、1万与1万条,为模型训练与评估提供了充分的数据支撑。
使用方法
该数据集适用于文本摘要与条件文本生成任务,可直接通过HuggingFace平台加载。使用时需指定配置参数,如`roberta_prepended`可生成带说话人前缀的拼接文本,兼容BART等序列到序列模型。研究人员可利用Transformers库中的摘要脚本进行微调,通过映射字段将`document`作为输入、`summary`作为目标输出,实现端到端的对话摘要模型训练与评估。
背景与挑战
背景概述
对话摘要作为自然语言处理领域的关键任务,旨在从多轮对话中提取核心信息并生成简洁的摘要。2021年,由Chenguang Zhu、Yang Liu、Jie Mei和Michael Zeng等研究人员共同创建的MediaSum数据集,填补了大规模媒体访谈对话摘要数据的空白。该数据集基于超过46万条来自电视和广播访谈的对话记录构建,其核心研究问题聚焦于如何从开放域、多主题的媒体对话中生成准确且连贯的摘要,推动了对话摘要模型在真实场景中的应用与发展,对新闻自动摘要、信息检索等领域产生了显著影响。
当前挑战
MediaSum数据集所解决的领域挑战在于媒体访谈对话的复杂性,包括多轮交互、话题跳跃、口语化表达以及冗余信息,这要求摘要模型具备深层语义理解和信息筛选能力。在构建过程中,挑战主要源于数据收集与标注:原始媒体访谈涉及版权与隐私问题,需进行合规处理;同时,人工撰写高质量摘要需要专业标注者理解对话上下文与核心意图,确保摘要的准确性与流畅性,这一过程耗时且成本高昂。
常用场景
经典使用场景
在对话摘要研究领域,MediaSum数据集以其大规模媒体访谈文本为基石,为模型训练提供了丰富资源。其经典使用场景集中于对话摘要任务,通过将冗长的访谈对话转化为精炼的摘要,帮助研究者评估模型在真实媒体环境下的信息压缩与语言生成能力。该数据集支持多种配置,如基于RoBERTa或BERT的文档拼接方式,便于适配不同预训练模型,推动对话摘要技术的迭代与优化。
衍生相关工作
围绕MediaSum数据集,学术界衍生了一系列经典研究工作。例如,基于该数据集的对话摘要模型对比研究,探索了BART、PEGASUS等序列到序列架构在媒体文本上的适应性;同时,研究者结合说话人角色与对话结构信息,提出了增强的注意力机制,以提升摘要的连贯性与忠实度。这些工作不仅丰富了对话摘要的技术路径,也为后续跨领域摘要数据集的构建提供了方法论参考。
数据集最近研究
最新研究方向
在对话摘要领域,MediaSum数据集以其大规模媒体访谈内容为研究提供了丰富资源。当前前沿方向聚焦于多模态融合与个性化摘要生成,结合语音、文本及视觉信息,提升摘要的准确性与语境适应性。热点事件如虚拟主播与智能客服的兴起,推动了对话摘要技术在实时交互场景中的应用,增强了人机协作效率。该数据集的影响在于促进了跨领域知识迁移,为新闻媒体、教育及企业服务等领域提供了智能化支持,具有显著的学术与实用价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作