Talk2Ref

Name: Talk2Ref
Creator: 德国卡尔斯鲁厄理工学院
Published: 2025-10-28 22:50:03
License: 暂无描述

arXiv2025-10-28 更新2025-10-30 收录

下载链接：

https://huggingface.co/datasets/s8frbroy/talk2ref

下载链接

链接失效反馈

官方服务：

资源简介：

Talk2Ref是一个大规模数据集，包含6,279场科学讲座和43,429篇被引用的论文，平均每场讲座有26篇引用。该数据集旨在支持对科学讲座中的参考预测进行研究，通过将讲座与其相关论文配对，使用讲座源出版物中引用的论文来模拟相关性。Talk2Ref为系统地研究从口语科学内容中进行参考预测提供了基础，并支持将口语研究内容集成到数字学术系统中。

Talk2Ref is a large-scale dataset consisting of 6,279 scientific lectures and 43,429 cited papers, with an average of 26 citations per lecture. This dataset is designed to support research on reference prediction in scientific lectures, by pairing each lecture with relevant papers cited in its source publications to simulate the relevance between the lecture and the papers. Talk2Ref provides a foundational resource for systematically investigating reference prediction from spoken scientific content, and facilitates the integration of spoken research content into digital academic systems.

提供机构：

德国卡尔斯鲁厄理工学院

创建时间：

2025-10-28

原始信息汇总

Talk2Ref数据集概述

数据集简介

Talk2Ref是首个用于从科学演讲中预测参考文献的大规模数据集，包含6,279个科学演讲和43,429篇引用论文，平均每个演讲引用26篇论文。该数据集支持参考预测任务研究，将非结构化的科学演讲内容映射到相关论文。

数据集规模

总样本量: 6,279个演讲
总引用量: 43,429篇论文
时间跨度: 2017-2022年
覆盖会议: ACL、NAACL、EMNLP

数据划分

划分	会议	年份	演讲数量	平均时长(分钟)	平均词数	平均引用数	总引用数
训练集	ACL、NAACL、EMNLP	2017-2021	3,971	12.1	1,615	26.75	31,064
开发集	ACL	2022	882	9.9	1,327	26.05	11,805
测试集	EMNLP、NAACL	2022	1,426	9.1	1,186	25.66	16,935
总计	ACL、NAACL、EMNLP	2017-2022	6,279	11.1	1,478	26.4	43,429

数据特征

字段名	类型	描述
video_path	string	原始会议演讲视频的URL或路径
audio	audio	带采样率信息的演讲音频波形
sr	int	音频录制采样率(Hz)
abstract	string	对应科学论文的摘要
language	string	演讲语言(英语)
split	string	数据划分("train"、"dev"或"test")
duration	float	音频时长(秒)
conference	string	会议名称(ACL、NAACL或EMNLP)
year	string	会议年份
transcription	string	演讲的自动语音识别转录文本
title	string	与演讲相关的论文标题
references	list	引用论文的结构化元数据列表

引用论文元数据结构

引用论文字段包含：abstract、authors、container_title、doi、editors、id、issue、keywords、matched_title、meeting、pages、publisher、ref_id、sections、title、topics、url、volume、year

数据收集与处理

源数据获取: 从ACL Anthology获取会议演讲和相关论文
音频提取: 使用FFmpeg从视频中提取音频并转换为.wav格式
转录处理: 使用Whisper-Large-v3进行语音转录
引用提取: 使用GROBID解析对应论文PDF，提取所有引用参考文献和元数据
摘要补充: 通过CrossRef、arXiv、OpenAlex和Semantic Scholar查询补充缺失摘要
数据过滤: 移除无效或占位符摘要

应用场景

基于语音内容的参考文献预测
语音到文本和语音到摘要生成
检索和表示学习

许可信息

数据集采用知识共享署名4.0国际许可协议(CC BY 4.0)分发

引用格式

bibtex @misc{broy2025talk2refdatasetreferenceprediction, title = {Talk2Ref: A Dataset for Reference Prediction from Scientific Talks}, author = {Frederik Broy and Maike Züfle and Jan Niehues}, year = {2025}, eprint = {2510.24478}, archivePrefix= {arXiv}, primaryClass = {cs.CL}, url = {https://arxiv.org/abs/2510.24478} }

搜集汇总

数据集介绍

构建方式

在科学交流日益数字化的背景下，Talk2Ref数据集通过系统化流程构建而成。该数据集以计算语言学协会（ACL）学术演讲为基础，首先从NUTSHELL数据集中获取演讲音频与对应论文元数据，随后通过GROBID工具解析原始论文PDF以提取引用文献信息。关键步骤包括使用Whisper-largev3模型生成演讲转录文本，并通过Crossref、arXiv等六个学术数据库检索引用论文的摘要信息。最终形成的6,279个演讲样本与43,429篇引用论文的对应关系，为研究口语化科学内容与结构化文献间的语义关联提供了坚实基础。

使用方法

该数据集支持双编码器架构的对比学习框架，通过将演讲转录文本与引用论文摘要映射到共享语义空间进行相似度计算。针对长文本处理挑战，研究可采用分段聚合策略，包括截断法、均值池化和可学习的加权均值方法。在检索阶段，所有候选论文嵌入通过FAISS索引实现高效最近邻搜索，并严格限制检索范围至演讲发表前的文献以确保时序合理性。评估体系包含精确度、召回率和平均精度均值等多维指标，全面衡量模型在真实科研场景下的引用推荐性能。

背景与挑战

背景概述

随着学术会议和在线平台的快速发展，科学讲座已成为传播研究成果的重要媒介。Talk2Ref数据集由卡尔斯鲁厄理工学院的研究团队于2025年创建，旨在解决科学讲座与相关文献的自动关联问题。该数据集包含6,279个讲座和43,429篇引用论文，平均每个讲座关联26篇参考文献，通过将讲座转录文本与对应源文献的引用信息进行配对，为研究语音内容与学术文献的语义关联提供了重要基础。该数据集的建立推动了语音科学内容与引文推荐系统的融合研究，为学术信息检索领域开辟了新的研究方向。

当前挑战

Talk2Ref数据集面临的核心挑战在于解决跨模态语义匹配问题：科学讲座的语音转录文本具有口语化、非结构化特征，包含大量不流畅表达和冗余信息，与目标论文的规范书面语风格存在显著差异。在构建过程中，技术挑战主要体现在三个方面：长文本处理难题，讲座转录文本平均达1,478词，远超传统编码器的输入限制；跨模态对齐困难，需要建立口语内容与学术论文间的语义映射；数据质量保障挑战，需从多个学术API获取论文摘要并确保元数据准确性，同时处理转录过程中的噪声和错误。

常用场景

经典使用场景

在学术演讲内容日益丰富的背景下，Talk2Ref数据集为科学演讲中的参考文献预测任务提供了关键支持。该数据集通过整合6279场演讲及其43429篇引用论文，构建了从非结构化口语内容到结构化文献的映射桥梁，典型应用于训练双编码器模型，以识别演讲中隐含的学术引用关系。

解决学术问题

Talk2Ref有效解决了跨模态语义对齐的学术挑战，即如何从包含冗余信息和口语噪声的演讲转录文本中，精准匹配形式严谨的书面论文。该数据集通过对比学习框架显著提升了模型在零样本检索和微调场景下的性能，为处理长序列输入和领域适应问题提供了标准化基准。

实际应用

该数据集的实际价值体现在构建智能学术辅助系统中，例如为在线教育平台和学术会议提供自动文献推荐服务。研究人员可通过分析演讲内容实时获取相关研究脉络，学生也能借助该系统快速定位课程讲座中的关键文献，显著提升知识获取效率。

数据集最近研究