mteb/scidocs
收藏Hugging Face2025-05-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mteb/scidocs
下载链接
链接失效反馈官方服务:
资源简介:
SCIDOCS是一个包含七个文档级任务的新评估基准,这些任务范围从引文预测到文档分类和推荐。数据集的领域包括学术、书面和非小说类。
SciDocs is a new evaluation benchmark consisting of seven document-level tasks ranging from citation prediction, to document classification and recommendation. The domains of the dataset include Academic, Written, and Non-fiction.
提供机构:
mteb
原始信息汇总
数据集概述
语言和多语言性
- 语言: 英语
- 多语言性: 单语种
任务类别和任务ID
- 任务类别: 文本检索
- 任务ID: 文档检索
配置名称和特征
-
默认配置
- 特征:
- 名称: query-id
- 数据类型: 字符串
- 名称: corpus-id
- 数据类型: 字符串
- 名称: score
- 数据类型: float64
- 名称: query-id
- 分割:
- 名称: test
- 字节数: 2873088
- 样本数: 29928
- 名称: test
- 特征:
-
语料库配置
- 特征:
- 名称: _id
- 数据类型: 字符串
- 名称: title
- 数据类型: 字符串
- 名称: text
- 数据类型: 字符串
- 名称: _id
- 分割:
- 名称: corpus
- 字节数: 32262487
- 样本数: 25657
- 名称: corpus
- 特征:
-
查询配置
- 特征:
- 名称: _id
- 数据类型: 字符串
- 名称: text
- 数据类型: 字符串
- 名称: _id
- 分割:
- 名称: queries
- 字节数: 119721
- 样本数: 1000
- 名称: queries
- 特征:
数据文件
-
默认配置
- 分割: test
- 路径: qrels/test.jsonl
- 分割: test
-
语料库配置
- 分割: corpus
- 路径: corpus.jsonl
- 分割: corpus
-
查询配置
- 分割: queries
- 路径: queries.jsonl
- 分割: queries
搜集汇总
数据集介绍

构建方式
在学术文本嵌入评估领域,SciDocs数据集通过精心设计的流程构建而成。该数据集从广泛的学术文献中提取了25,657篇文档,并生成了1,000个查询,形成了29,928个查询-文档相关性标注对。构建过程注重文档层级的代表性,涵盖了从引用预测到文档分类与推荐等多种任务,确保了数据在学术文本理解与检索任务中的适用性。数据以JSON Lines格式组织,分为语料库、查询集和测试集三个独立配置,便于模型训练与评估的模块化使用。
特点
SciDocs数据集展现出鲜明的学术领域特性,其文档平均长度约为1,204个字符,查询平均长度为72个字符,结构上平衡了信息的深度与检索的针对性。数据集包含七项文档级评估任务,全面覆盖了学术文本处理的核心场景。其单语(英语)特性与纯文本形式,为模型提供了清晰统一的评估环境。作为大规模文本嵌入基准(MTEB)的一部分,该数据集与标准化评估框架紧密集成,确保了评估结果的可比性与可复现性。
使用方法
利用SciDocs数据集进行模型评估,需依托MTEB基准框架。用户通过导入`mteb`库,调用`get_tasks`函数加载SCIDOCS任务,并实例化评估器。随后,将待评估的嵌入模型传入评估器,执行`run`方法即可自动完成在七项任务上的全面测试。该流程封装了数据加载、任务执行与结果汇总,为用户提供了高效、标准化的评估接口,显著简化了学术文本嵌入模型的性能验证工作。
背景与挑战
背景概述
SciDocs数据集由艾伦人工智能研究所(Allen Institute for AI)于2020年推出,作为文档级表示学习的重要评估基准,其核心研究问题聚焦于学术文本的语义理解与关联性建模。该数据集旨在通过七项任务,涵盖引文预测、文档分类与推荐等多个维度,为自然语言处理领域提供一套系统化的评测框架。其构建基于大规模学术文献,不仅推动了如SPECTER等预训练模型的发展,也为后续的文本嵌入研究奠定了实证基础,显著提升了学术文档处理任务的标准化与可比性。
当前挑战
SciDocs数据集所应对的领域挑战在于学术文档的复杂语义关联与多任务评估,例如引文网络中的深层逻辑推理与跨文档主题一致性识别,这些任务要求模型超越表层文本匹配,实现细粒度的知识关联。在构建过程中,挑战主要源于学术数据的异构性与质量把控,包括从海量文献中精确提取结构化信息、确保引文关系的完整性,以及平衡不同任务间的数据分布,以维持评估的公正性与泛化能力。
常用场景
经典使用场景
在学术文本嵌入与检索领域,SciDocs数据集作为一项权威基准,其经典使用场景聚焦于评估文档级表示学习模型的性能。该数据集通过构建包含科学文献引用关系、分类标签及推荐任务的七项子任务,为研究者提供了系统化的测试平台。模型在此数据集上的表现,能够直观反映其捕捉学术文档语义关联、理解跨文档引用网络以及进行细粒度主题划分的能力,从而推动文本嵌入技术在学术领域的深度应用。
解决学术问题
SciDocs数据集有效应对了学术研究中文档级语义表示与关联挖掘的核心挑战。它通过整合引用预测、文档分类与推荐等多维度任务,解决了传统评估方法单一、难以全面衡量模型在复杂学术语境下性能的局限。该数据集的意义在于为文档嵌入模型提供了统一、严谨的评估标准,促进了表示学习技术与科学文献理解之间的交叉融合,对提升学术信息检索的精度与智能化水平产生了深远影响。
衍生相关工作
围绕SciDocs数据集,已衍生出一系列具有影响力的经典研究工作。以SPECTER模型为代表,该工作利用引用信息增强文档表示学习,在SciDocs任务上取得了突破性性能,奠定了引用感知型预训练模型的基础。后续研究如MTEB基准框架的建立,进一步将SciDocs纳入大规模文本嵌入评估体系,推动了多任务、多语言嵌入模型的标准化测评与持续优化,形成了以基准驱动模型创新的良性研究生态。
以上内容由遇见数据集搜集并总结生成



