arxiv论文元数据
收藏魔搭社区2026-01-07 更新2025-08-30 收录
下载链接:
https://modelscope.cn/datasets/xiaoshulin/arxiv-metadata-embedding
下载链接
链接失效反馈官方服务:
资源简介:
使用Qwen3-embedding-8b对Arxiv公开的论文的元数据(标题和摘要)生成嵌入,使用默认维度,保存为h5文件。
Embeddings were generated from the metadata (titles and abstracts) of publicly available Arxiv papers using Qwen3-embedding-8b with its default dimensionality, and saved as H5 files.
提供机构:
maas
创建时间:
2025-08-25
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是为arXiv OAI Scripts项目生成的合成嵌入,使用Qwen3-embedding-8B模型创建,其性能经过测试优于先前的最先进模型。数据集采用Apache License 2.0许可证,大小为34.75GB,于2025年8月25日更新。
以上内容由遇见数据集搜集并总结生成



