中国移动互联网治理行业中西方学术文化文本数据集
收藏国家数据集管理服务平台2026-05-28 更新2026-04-29 收录
下载链接:
https://www.ndsms.cn/dataRetrieval/datasetDetail/?id=c2ee9d2a1b123e5c11b1b9c55a92598d
下载链接
链接失效反馈官方服务:
资源简介:
本数据集包含国学典籍、古典诗词、中英文图书文献、专利文本、学术论文与研究类文章等内容,覆盖中西方学术与文化表达场景。数据同时具有中文与英文语料特征,既适合做多语言文本处理,也适合用于学术知识组织、文化传播研究和跨语言对齐分析。
This dataset includes content such as traditional Chinese classics, classical Chinese poetry, Chinese and English book documents, patent texts, academic papers and research articles, covering academic and cultural expression scenarios across China and the West. The dataset features characteristics of both Chinese and English language corpora, making it suitable not only for multilingual text processing but also for academic knowledge organization, cultural communication research and cross-lingual alignment analysis.
提供机构:
中移九天人工智能科技(北京)有限公司
创建时间:
2026-04-22
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含国学典籍、古典诗词、中英文图书文献、专利文本及学术论文等内容,覆盖中西方学术与文化表达场景,具备中英文双语特征。它适用于多语言文本处理、学术知识组织、文化传播研究和跨语言对齐分析,数据规模为202GB,属于文本/多语言模态。
以上内容由遇见数据集搜集并总结生成



