five

colonelwatch/abstracts-embeddings

收藏
Hugging Face2025-11-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/colonelwatch/abstracts-embeddings
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为abstracts-embeddings,包含了来自OpenAlex数据集的9500万篇学术出版物的标题和摘要的嵌入向量。生成这些嵌入向量的过程包括从倒排索引格式重建摘要文本,构建文档字符串,使用fastText进行语言识别,并使用sentence-transformers模型计算嵌入向量。数据集目前由一个文本文件和一个numpy memmap文件组成,未来可能会转换为parquet格式。

该数据集名为abstracts-embeddings,包含了来自OpenAlex数据集的9500万篇学术出版物的标题和摘要的嵌入向量。生成这些嵌入向量的过程包括从倒排索引格式重建摘要文本,构建文档字符串,使用fastText进行语言识别,并使用sentence-transformers模型计算嵌入向量。数据集目前由一个文本文件和一个numpy memmap文件组成,未来可能会转换为parquet格式。
提供机构:
colonelwatch
原始信息汇总

数据集概述

数据集名称

  • 名称: abstracts-embeddings

数据集描述

  • 内容: 包含9500万学术出版物的标题和摘要的嵌入信息,来源于OpenAlex数据集。
  • 处理过程:
    1. 从倒排索引格式重建摘要文本。
    2. 构建格式为title + + abstract或仅有abstract的单个文档字符串。
    3. 使用fastText确定文档字符串是否为英语。
    4. 若为英语,使用all-MiniLM-L6-v2模型计算嵌入。

数据集结构

  • 当前格式: 包含一个文本文件和一个numpy memmap。
    • 文本文件: 包含可用于从OpenAlex API获取更多信息的ID列表。
    • memmap: 包含多个长度为384的np.float16向量数组,每个向量对应文本文件中的一行。

数据集技术细节

  • 语言: 英语
  • 许可证: CC0-1.0
  • 大小: 10M<n<100m
  • 任务类别: 文本检索
  • 任务ID: 文档检索

数据集使用限制

  • 由于all-MiniLM-L6-v2模型仅训练于英语文本,因此仅包含英语摘要的文档被包含在内。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作