NUTSHELL

Name: NUTSHELL
Creator: 卡尔斯鲁厄理工学院，Bruno Kessler基金会
Published: 2025-02-24 16:11:17
License: 暂无描述

arXiv2025-02-24 更新2025-02-26 收录

下载链接：

https://huggingface.co/datasets/maikezu/nutshell

下载链接

链接失效反馈

官方服务：

资源简介：

NUTSHELL是一个创新的科学谈话摘要生成数据集，由卡尔斯鲁厄理工学院和Bruno Kessler基金会创建。该数据集包含ACL会议上的录音谈话及其相应的摘要，旨在帮助研究者在没有观看完整录音的情况下，快速掌握谈话的关键内容。数据集涵盖了1,172小时的音频内容，共计6,316个不同的演讲。这些音频内容均来自ACL会议，按照CC-BY 4.0许可证发布，可供未来研究使用。

NUTSHELL is an innovative scientific talk summarization dataset developed by Karlsruhe Institute of Technology and Bruno Kessler Foundation. This dataset comprises recorded talks from the ACL Conference and their corresponding summaries, designed to help researchers quickly grasp the core content of a talk without reviewing the full recording. The dataset encompasses 1,172 hours of audio material across a total of 6,316 unique speeches. All these audio recordings originate from the ACL Conference and are released under the CC-BY 4.0 license for future research purposes.

提供机构：

卡尔斯鲁厄理工学院，Bruno Kessler基金会

创建时间：

2025-02-24

搜集汇总

数据集介绍

构建方式

NUTSHELL数据集的构建基于ACL会议的录音及其相应的摘要。数据集从2017年至2021年的ACL、EMNLP和NAACL会议中收集了4000个演讲，以及2022年的ACL会议中的885个演讲。每个演讲都包含视频和摘要，并从论文网站上提取。数据集被分为训练集、开发集和测试集，以模拟现实世界的评估环境。数据集包含了6316个不同演讲的1171.8小时音频内容，为语音到摘要生成（SAG）任务提供了丰富的资源。

特点

NUTSHELL数据集的主要特点是它是一个多模态数据集，将科学会议的录音与其摘要配对。这使得研究者可以快速了解演讲的主要内容，而无需观看整个演讲视频。数据集还包含了视频内容，为更复杂的跨模态任务提供了额外的资源。NUTSHELL数据集的特点还包括它的大规模和高质量，为SAG任务提供了可靠的基准。

使用方法

使用NUTSHELL数据集的方法包括构建和评估不同的模型，以生成高质量的摘要。数据集可用于训练端到端模型，以及将自动语音识别（ASR）与文本摘要相结合的级联模型。评估模型性能的标准包括ROUGE和BERTScore等自动指标，以及基于大型语言模型（LLM）的评估方法，如LLM-as-a-judge。此外，NUTSHELL数据集还支持人类评估，以验证自动指标的有效性。

背景与挑战

背景概述

随着自然语言处理领域对科学交流的关注日益增加，尤其是为了帮助研究人员获取、总结和生成内容，一个新兴的应用领域是语音到摘要生成（SAG）。SAG旨在从记录的科学演讲中自动生成摘要，使研究人员能够高效地参与会议演讲。然而，由于缺乏大规模数据集，该领域的发展受到了限制。为了解决这一差距，我们引入了NUTSHELL，这是一个由ACL会议演讲及其相应摘要组成的新型多模态数据集。我们为SAG建立了强大的基线，并使用自动指标和人工判断来评估生成的摘要的质量。我们的结果表明，SAG面临着挑战，并证明了在NUTSHELL上进行训练的好处。通过在开放许可（CC-BY 4.0）下发布NUTSHELL，我们旨在推进SAG的研究，并促进改进模型和评估方法的开发。

当前挑战

NUTSHELL数据集面临的主要挑战包括：1) 如何有效地将语音内容转换为结构化、简洁且准确的摘要；2) 如何确保生成的摘要能够准确捕捉演讲中的关键贡献和细微差别；3) 如何评估生成的摘要的质量，并确定哪些评估指标最有效。为了解决这些挑战，研究人员需要开发更先进的模型和评估方法，以利用NUTSHELL数据集的丰富性，并进一步提高摘要生成的质量。

常用场景

经典使用场景

NUTSHELL 数据集被广泛应用于自然语言处理领域，特别是在科学交流方面。其最经典的使用场景之一是 Speech-to-Abstract Generation (SAG)，即从记录的科学演讲中自动生成摘要。SAG 使得研究人员能够高效地参与会议演讲，但进展一直受到大型数据集缺乏的限制。NUTSHELL 数据集的引入填补了这一空白，为 SAG 研究提供了宝贵的资源。

实际应用

NUTSHELL 数据集在实际应用场景中具有广泛的应用潜力。例如，在学术会议中，NUTSHELL 可以帮助研究人员快速了解演讲的要点，从而更高效地参与会议。此外，NUTSHELL 还可以用于自动生成会议演讲的摘要，方便研究人员在没有观看完整记录的情况下评估相关演讲。

衍生相关工作

NUTSHELL 数据集的引入推动了 Speech-to-Abstract Generation (SAG) 研究的进展。基于 NUTSHELL 数据集，研究人员可以训练和评估不同的模型，探索更有效的摘要生成方法。此外，NUTSHELL 数据集还可以与其他数据集结合使用，例如结合视频内容，进一步提高摘要的质量。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集