talk2ref

Hugging Face2025-10-27 更新2025-10-28 收录

下载链接：

https://huggingface.co/datasets/s8frbroy/talk2ref

下载链接

链接失效反馈

官方服务：

资源简介：

Talk2Ref是一个将科学演讲与它们对应的参考文献相关联的大型数据集，包含6,279个科学演讲和43,429篇被引用的论文，覆盖了2017至2022年的ACL、NAACL和EMNLP等会议。该数据集为研究从口头科学内容中预测参考文献提供了基础。

创建时间：

2025-10-24

原始信息汇总

Talk2Ref数据集概述

数据集简介

Talk2Ref是首个大规模科学演讲与参考文献配对数据集，专门用于支持"从演讲中预测参考文献"（RPT）任务的研究。该数据集包含6,279个科学演讲和43,429篇被引论文，平均每个演讲引用26篇论文。

数据集规模

总演讲数量：6,279个
总参考文献数量：43,429篇
时间跨度：2017-2022年
覆盖会议：ACL、NAACL、EMNLP

数据划分

划分	会议	年份	演讲数量	平均时长(分钟)	平均词数	平均参考文献	总参考文献
训练集	ACL、NAACL、EMNLP	2017-2021	3,971	12.1	1,615	26.75	31,064
开发集	ACL	2022	882	9.9	1,327	26.05	11,805
测试集	EMNLP、NAACL	2022	1,426	9.1	1,186	25.66	16,935

数据特征

主要字段

video_path：会议演讲视频的URL或路径
audio：演讲片段的音频波形
sr：音频采样率（Hz）
abstract：对应科学论文的摘要
language：演讲语言（英语）
split：数据划分（训练/开发/测试）
duration：音频时长（秒）
conference：会议名称
year：会议年份
transcription：演讲的自动语音识别转录文本
title：与演讲相关的论文标题
references：被引论文的结构化元数据列表

参考文献元数据

参考文献字段包含：摘要、作者、容器标题、DOI、编辑、ID、期号、关键词、匹配标题、会议、页码、出版商、引用ID、章节、标题、主题、URL、卷号、年份

数据收集与处理

来源获取：从ACL Anthology获取会议演讲和相关论文
音频提取：使用FFmpeg从视频中提取音频并转换为WAV格式
转录处理：使用Whisper-Large-v3进行语音转录
参考文献提取：使用GROBID解析论文PDF，提取所有引用参考文献和元数据
摘要补充：通过CrossRef、arXiv、OpenAlex和Semantic Scholar查询补充缺失摘要
数据过滤：移除无效或占位符摘要

应用场景

从口语内容预测参考文献
语音到文本和语音到摘要生成
检索和表示学习

许可证

数据集采用知识共享署名4.0国际许可证（CC BY 4.0）分发。

搜集汇总

数据集介绍

构建方式

在科学传播领域，Talk2Ref数据集通过系统化流程构建而成。该数据集源自ACL Anthology收录的学术会议演讲资源，采用多阶段处理策略：首先从会议视频中提取音频轨道并转换为标准格式，随后运用Whisper-Large-v3模型实现语音转写生成文本转录。通过GROBID工具解析对应论文PDF文件，精确提取引文及其元数据，并借助CrossRef、arXiv等学术数据库补充缺失的摘要信息，最终经过严格筛选形成完整的演讲-引文对应关系。

使用方法

该数据集为引文推荐系统的研究开辟了新路径。研究者可基于演讲转录文本与引文摘要的对应关系，开发双编码器架构实现语义匹配，或探索领域自适应策略提升模型泛化能力。实际应用中，可将长篇幅演讲内容分割为语义片段，通过嵌入表示计算与候选文献的相似度，最终实现从非结构化口语内容到结构化学术文献的智能映射。数据集的标准划分方案支持端到端训练与评估流程，为构建新一代科学交流辅助工具奠定数据基础。

背景与挑战

背景概述

在学术交流日益数字化的背景下，科学演讲作为传播研究成果的重要媒介，其自动关联相关文献的需求日益凸显。Talk2Ref数据集由研究团队于2022年创建，聚焦于从科学演讲中预测参考文献这一新兴任务。该资源整合了ACL、NAACL和EMNLP三大计算语言学会议2017至2022年间的6279场演讲及其43429篇引用文献，通过双编码器架构探索语义关联建模，为语音驱动的研究推荐系统提供了首个大规模基准。

当前挑战

该数据集致力于解决科学演讲中参考文献预测的核心难题：如何从非结构化的语音内容中捕捉细粒度学术关联。构建过程中面临多重挑战，包括长时语音转录的准确性保障、跨模态数据对齐的复杂性，以及引用文献元数据补全的完整性要求。这些技术瓶颈直接影响了模型对学术语境深层语义的理解能力，亟需开发更鲁棒的跨模态表示学习方法。

常用场景

经典使用场景

在自然语言处理与信息检索交叉领域，Talk2Ref数据集为学术演讲的文献引用预测任务提供了标准化评估基准。其核心应用场景聚焦于通过端到端模型分析科学演讲的语音转录文本，自动识别并推荐与之相关的学术论文。该数据集通过整合演讲内容与对应出版物中的引用关系，构建了从非结构化口语表达到结构化文献资源的语义映射桥梁，为研究长文本语义匹配与跨模态检索提供了理想实验平台。

解决学术问题

该数据集有效解决了学术交流场景中口语化表达与规范化文献之间的语义鸿沟问题。通过构建大规模演讲-论文关联对，它推动了基于语音内容的引文推荐系统发展，攻克了传统文本检索模型在处理口语转录文本时的语义离散性挑战。其时序划分策略进一步解决了模型泛化能力评估中的时间偏移难题，为研究动态演进的学术知识体系提供了重要基础设施。

实际应用

在实践层面，该数据集支撑的智能系统可广泛应用于学术资源服务平台。例如在在线学术会议系统中实现实时文献推荐，辅助听众深度理解演讲内容；在数字图书馆构建语音驱动的知识检索入口；还能作为教育科技产品的核心引擎，通过分析学术报告自动生成扩展阅读清单。这些应用显著提升了学术传播效率与知识获取体验。

数据集最近研究