five

VCSUM

收藏
arXiv2023-05-15 更新2024-06-21 收录
下载链接:
https://github.com/hahahawu/VCSum
下载链接
链接失效反馈
官方服务:
资源简介:
VCSUM是一个多功能的中文会议摘要数据集,由商汤科技研究创建,包含239个真实会议记录,总时长超过230小时。每个会议记录平均超过14K个tokens,数据来源于多个领域,如科技、金融和日常生活。数据集创建过程中,通过视频解析和自动语音识别平台进行数据标注,确保高质量的注释。VCSUM适用于多种摘要任务,包括基于分段的摘要、多粒度摘要和检索后生成摘要,旨在解决会议内容摘要的挑战,提高会议效率和信息提取的准确性。

VCSUM is a versatile Chinese meeting summarization dataset developed by SenseTime Research. It consists of 239 real meeting recordings with a total duration of over 230 hours, and each meeting recording averages more than 14,000 tokens. The dataset is sourced from multiple domains such as technology, finance and daily life. During the dataset creation process, data annotation was conducted through video parsing and automatic speech recognition platforms to ensure high-quality annotations. VCSUM is applicable to various summarization tasks, including segment-based summarization, multi-granularity summarization and retrieve-then-generate summarization. It aims to tackle the challenges in meeting content summarization, and enhance meeting efficiency and the accuracy of information extraction.
提供机构:
商汤科技研究
创建时间:
2023-05-09
搜集汇总
数据集介绍
main_image_url
构建方式
VCSUM 数据集的构建方式是通过对现实生活中会议录音进行收集和标注。首先,从中国视频分享网站上获取了 1419 个视频,并通过众包方式筛选出 541 个高质量的会议视频。然后,从中选取了 239 个会议,涵盖了多个不同领域。数据标注在飞书会议平台进行,包括突出句、主题分割、分割标题、分割摘要和整体摘要五种类型。为了确保数据质量,招募了专业标注员进行标注,并对标注结果进行了严格的质量控制。
特点
VCSUM 数据集具有以下特点:1)包含 239 个会议,总时长超过 230 小时,平均每个会议转录文本超过 14K 个 token;2)提供多种标注类型,包括突出句、主题分割、分割摘要和整体摘要,支持多种总结任务和方法;3)数据分布均匀,不受位置偏差的影响,更具挑战性;4)涉及多个领域,包括技术、金融、日常生活等,具有广泛的适用性。
使用方法
VCSUM 数据集可用于以下任务:1)突出句提取;2)基于分割的多粒度总结;3)抽象会议总结。研究人员可以根据具体任务选择合适的模型和方法,并进行实验评估。同时,我们提供了基准模型,以促进进一步的研究。
背景与挑战
背景概述
会议摘要任务旨在将会议记录提炼为简明扼要的摘要,涵盖会议中最突出的部分,以帮助参与者或缺席者快速把握重点。VCSUM数据集由香港城市大学计算机科学系、香港城市大学深圳研究院和商汤科技研究院的研究人员共同创建,旨在解决会议摘要领域数据不足的问题。该数据集包含239个真实生活的会议记录,总时长超过230小时。VCSUM数据集的多功能性体现在其提供了包括主题分割、标题、分段摘要、整体会议摘要和显著句子等注释,能够适应各种摘要任务或方法,包括基于分割的摘要、多粒度摘要和检索-生成摘要。VCSUM数据集的创建对于会议摘要领域具有重要意义,为相关研究提供了高质量的数据基础。
当前挑战
VCSUM数据集面临的挑战主要包括:1)会议摘要的复杂性:与标准的文本摘要相比,会议摘要更具挑战性,因为其包含更多非正式和口语表达、主题转换、多个参与者和更长的上下文。2)数据集构建的挑战:构建大规模、高质量的会议摘要数据集需要大量的人力物力,并且需要确保数据集的多样性和代表性。3)摘要任务的多样性:会议摘要任务不仅包括生成整体摘要,还包括主题分割、多粒度摘要和检索-生成摘要等子任务,需要设计不同的模型和方法来应对这些挑战。VCSUM数据集的创建为解决这些挑战提供了新的思路和方法,有助于推动会议摘要领域的发展。
常用场景
经典使用场景
VCSUM数据集是会议摘要领域的开创性工作,为研究人员提供了大量真实会议记录及其摘要,可用于训练和评估各种摘要模型。其最经典的使用场景是作为会议摘要模型的训练数据集,例如基于分割的摘要、多粒度摘要和检索然后生成摘要等。此外,VCSUM数据集还提供了突出句子的提取,可用于评估摘要模型对重要信息的捕捉能力。
衍生相关工作
VCSUM数据集的提出引发了会议摘要领域的广泛关注,并衍生出许多相关的研究工作。例如,一些研究基于VCSUM数据集提出了新的会议摘要模型,并在VCSUM数据集上进行了评估。此外,一些研究还基于VCSUM数据集研究了会议摘要领域的相关任务,例如基于分割的摘要、多粒度摘要和检索然后生成摘要等,推动了会议摘要领域的研究进展。
数据集最近研究
最新研究方向
VCSUM数据集作为中文会议摘要领域的一项突破,提供了丰富的多粒度注释,包括主题分割、标题、分段摘要、整体会议摘要和突出句子的标注。这使得该数据集能够适应各种摘要任务或方法,包括基于分割的摘要、多粒度摘要和检索后生成摘要。这些功能使得VCSUM成为研究会议摘要领域新变体任务和方法的理想测试平台。通过在VCSUM上进行的实验,研究者们展示了分割式摘要、多粒度摘要和检索后生成摘要等变体任务和方法在会议摘要领域的潜力。此外,VCSUM的出现填补了会议摘要数据集在数量和质量上的空白,为该领域的研究提供了强有力的支持。未来,研究者们将致力于开发端到端框架,以解决VCSUM的所有任务,并进一步探索多模态会议摘要的研究方向。
相关研究论文
  • 1
    VCSUM: A Versatile Chinese Meeting Summarization Dataset商汤科技研究 · 2023年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作