colonelwatch/abstracts-embeddings
收藏Hugging Face2025-11-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/colonelwatch/abstracts-embeddings
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为abstracts-embeddings,包含了来自OpenAlex数据集的9500万篇学术出版物的标题和摘要的嵌入向量。生成这些嵌入向量的过程包括从倒排索引格式重建摘要文本,构建文档字符串,使用fastText进行语言识别,并使用sentence-transformers模型计算嵌入向量。数据集目前由一个文本文件和一个numpy memmap文件组成,未来可能会转换为parquet格式。
该数据集名为abstracts-embeddings,包含了来自OpenAlex数据集的9500万篇学术出版物的标题和摘要的嵌入向量。生成这些嵌入向量的过程包括从倒排索引格式重建摘要文本,构建文档字符串,使用fastText进行语言识别,并使用sentence-transformers模型计算嵌入向量。数据集目前由一个文本文件和一个numpy memmap文件组成,未来可能会转换为parquet格式。
提供机构:
colonelwatch
原始信息汇总
数据集概述
数据集名称
- 名称: abstracts-embeddings
数据集描述
- 内容: 包含9500万学术出版物的标题和摘要的嵌入信息,来源于OpenAlex数据集。
- 处理过程:
- 从倒排索引格式重建摘要文本。
- 构建格式为
title + + abstract或仅有abstract的单个文档字符串。 - 使用fastText确定文档字符串是否为英语。
- 若为英语,使用
all-MiniLM-L6-v2模型计算嵌入。
数据集结构
- 当前格式: 包含一个文本文件和一个numpy memmap。
- 文本文件: 包含可用于从OpenAlex API获取更多信息的ID列表。
- memmap: 包含多个长度为384的
np.float16向量数组,每个向量对应文本文件中的一行。
数据集技术细节
- 语言: 英语
- 许可证: CC0-1.0
- 大小: 10M<n<100m
- 任务类别: 文本检索
- 任务ID: 文档检索
数据集使用限制
- 由于
all-MiniLM-L6-v2模型仅训练于英语文本,因此仅包含英语摘要的文档被包含在内。



