colonelwatch/abstracts-embeddings

Name: colonelwatch/abstracts-embeddings
Creator: colonelwatch
Published: 2025-11-01 20:43:36
License: 暂无描述

Hugging Face2025-11-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/colonelwatch/abstracts-embeddings

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为abstracts-embeddings，包含了来自OpenAlex数据集的9500万篇学术出版物的标题和摘要的嵌入向量。生成这些嵌入向量的过程包括从倒排索引格式重建摘要文本，构建文档字符串，使用fastText进行语言识别，并使用sentence-transformers模型计算嵌入向量。数据集目前由一个文本文件和一个numpy memmap文件组成，未来可能会转换为parquet格式。

提供机构：

colonelwatch

原始信息汇总

数据集概述

数据集名称

名称: abstracts-embeddings

数据集描述

内容: 包含9500万学术出版物的标题和摘要的嵌入信息，来源于OpenAlex数据集。
处理过程:
1. 从倒排索引格式重建摘要文本。
2. 构建格式为title + + abstract或仅有abstract的单个文档字符串。
3. 使用fastText确定文档字符串是否为英语。
4. 若为英语，使用all-MiniLM-L6-v2模型计算嵌入。

数据集结构

当前格式: 包含一个文本文件和一个numpy memmap。
- 文本文件: 包含可用于从OpenAlex API获取更多信息的ID列表。
- memmap: 包含多个长度为384的np.float16向量数组，每个向量对应文本文件中的一行。

数据集技术细节

语言: 英语
许可证: CC0-1.0
大小: 10M<n<100m
任务类别: 文本检索
任务ID: 文档检索

数据集使用限制

由于all-MiniLM-L6-v2模型仅训练于英语文本，因此仅包含英语摘要的文档被包含在内。

5,000+

优质数据集

54 个

任务类型

进入经典数据集