多语种科学研究文本数据集
收藏国家数据集管理服务平台2026-04-09 更新2026-04-29 收录
下载链接:
https://www.ndsms.cn/dataRetrieval/datasetDetail/?id=18d79ca8a02b826cbf1996f4496be7b0
下载链接
链接失效反馈官方服务:
资源简介:
该数据集为多语种 PDF 文本类数据集,整合了钢铁、金融、计算机、生物、物理、数学等10个学科的核心科研文献内容。关键字段包含书籍名称、学科、关键词、出版社、作者、年份、语种、存储路径、文件类型。
This is a multilingual PDF text dataset that integrates core scientific research literature content across 10 academic disciplines, including iron and steel, finance, computer science, biology, physics, mathematics, and other related fields. Its key fields include book title, discipline, keywords, publisher, author, publication year, language, storage path, and file type.
提供机构:
安徽飞数信息科技有限公司
创建时间:
2026-04-08
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个多语种PDF文本集合,整合了钢铁、金融、计算机等10个学科的核心科研文献,包含书籍名称、学科、关键词等关键字段。它适用于多语种长文本理解模型训练和跨语言专业知识提取等场景,数据规模达112TB。
以上内容由遇见数据集搜集并总结生成



