five

MediaSum

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/MediaSum
下载链接
链接失效反馈
官方服务:
资源简介:
MediaSum,一个大规模的媒体采访数据集,由463.6k成绩单和抽象摘要组成。为了创建这个数据集,我们从NPR和CNN收集采访记录,并使用概述和主题描述作为摘要。与现有的用于对话摘要的公共语料库相比,我们的数据集要大一个数量级,并且包含来自多个领域的复杂多方对话。我们进行统计分析,以证明电视和广播采访的笔录中表现出的独特位置偏差。我们还表明,MediaSum可用于迁移学习,以提高模型在其他对话摘要任务上的性能。
提供机构:
OpenDataLab
创建时间:
2023-10-11
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
MediaSum是一个大规模媒体采访数据集,包含46.3万条来自NPR和CNN采访的转录文本和摘要,其规模远超现有对话摘要语料库,并展现独特的位置偏差。该数据集可用于迁移学习,以提升其他对话摘要任务的模型性能。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作