crossref_metadata_embeddings_split_2025_binary

Hugging Face2025-07-26 更新2025-07-27 收录

下载链接：

https://huggingface.co/datasets/bluuebunny/crossref_metadata_embeddings_split_2025_binary

下载链接

链接失效反馈

官方服务：

资源简介：

crossref 2025是一个英文数据集，包含用于句子相似度任务的抽象字段的向量嵌入。该数据集与学术文献和参考文献有关，大小在10M到100M之间。

Crossref 2025 is an English dataset containing vector embeddings of abstract fields for sentence similarity tasks. This dataset is related to academic literature and reference works, with a size ranging from 10M to 100M.

创建时间：

2025-07-23

原始信息汇总

数据集概述

基本信息

名称: crossref 2025
许可证: Apache 2.0
任务类别: 句子相似度
语言: 英文 (en)
标签: doi, bibliography, literature, crossref
数据规模: 10M < n < 100M

数据集内容

来源: 基于数据集 bluuebunny/crossref_metadata_2025_split 的 abstract 字段生成向量嵌入。
嵌入模型: 使用 mixedbread-ai/mxbai-embed-large-v1 生成向量嵌入。
二值化处理: 对生成的浮点向量进行二值化处理，具体方法为：
- 将浮点向量转换为 numpy 数组。
- 使用 np.where 将大于等于0的值设为1，小于0的值设为0。
- 使用 np.packbits 打包为二进制格式。

适用场景

适用于句子相似度计算、文献检索、跨文献引用分析等任务。

搜集汇总

数据集介绍

构建方式

在学术文献计量研究领域，crossref_metadata_embeddings_split_2025_binary数据集通过先进的向量化技术实现了文献摘要的结构化表征。该数据集基于bluuebunny/crossref_metadata_2025_split原始数据，采用mixedbread-ai研发的mxbai-embed-large-v1嵌入模型生成抽象语义向量，并通过numpy库将浮点型向量二值化处理，最终形成适合Milvus向量数据库的高效二进制表示。这种处理方法在保证语义信息完整性的同时，显著提升了存储和检索效率。

特点

作为跨文献计量学与信息检索的桥梁，该数据集最显著的特征在于其独特的二进制向量表示形式。每个文献摘要被编码为紧凑的二进制向量，既保留了原始嵌入模型捕获的深层语义特征，又具备计算高效、存储经济的优势。数据集涵盖数千万级规模的科学文献，覆盖多学科领域，其标准化处理流程确保了向量空间的一致性，为大规模文献相似性计算和知识发现提供了理想的基础设施。

使用方法

该数据集主要服务于学术文献的智能检索与知识发现任务。研究者可直接加载预处理好的二进制向量，配合Milvus等专用向量数据库实现高效的相似文献检索。在具体应用中，用户需通过np.unpackbits方法将二进制数据还原为向量形式，继而开展语义相似度计算、文献聚类或推荐系统构建等下游任务。该数据集特别适合需要处理海量文献且对计算效率有较高要求的应用场景。

背景与挑战

背景概述

crossref_metadata_embeddings_split_2025_binary数据集由bluuebunny团队基于Crossref文献元数据构建，发布于2025年，旨在为学术文献摘要提供高效的向量化表示。该数据集利用mixedbread-ai开发的mxbai-embed-large-v1模型生成嵌入向量，并通过二值化处理优化存储与检索效率。作为涵盖数千万条记录的庞大语料库，其核心价值在于促进文献相似性计算、跨学科知识发现等下游任务，为数字图书馆、学术搜索引擎等应用提供结构化语义表示基础。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，学术摘要的语义密度高且专业性强，传统嵌入模型难以准确捕捉学科术语间的复杂关联；二值化处理虽提升效率，但不可避免造成原始浮点向量信息的精度损失。在构建过程中，需处理Crossref原始数据的异构性，包括摘要字段缺失、多语言混杂等问题，而大规模嵌入计算与二值化转换对分布式系统的内存管理与计算效率提出了极高要求。

常用场景

经典使用场景

在学术文献检索与知识发现领域，crossref_metadata_embeddings_split_2025_binary数据集通过预生成的摘要向量嵌入，为大规模文献相似性计算提供了高效解决方案。其二进制化处理显著降低了存储与计算复杂度，使得在千万级文献库中实时匹配相关研究成为可能，特别适合构建智能文献推荐系统或跨学科知识图谱。

解决学术问题

该数据集有效缓解了传统文本匹配算法在处理多义词与语义泛化时的局限性，通过深度语义嵌入捕捉学术摘要的潜在特征。其二进制向量表示不仅解决了高维嵌入的存储瓶颈，更为文献去重、学术影响力追踪等研究提供了标准化基准，推动了计算语言学与文献计量学的交叉创新。

衍生相关工作

该数据集催生了多个里程碑式研究，包括基于二进制嵌入的分布式文献检索框架BinaryScholar，以及将文献向量与引用网络结合的混合推荐系统Cite2Vec。后续工作进一步拓展了嵌入模型在专利文献、预印本等非传统学术文本中的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集