five

中国网络安全中文基础语料库

收藏
OpenDataLab2026-06-07 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/cybersac2023
下载链接
链接失效反馈
官方服务:
资源简介:
中国网络空间安全协会人工智能安全治理专业委员会面向社会发布用于大模型的首批中文基础语料库

The Specialized Committee on Artificial Intelligence Security Governance of the China Cyberspace Security Association has released the first batch of Chinese basic corpora for large language models (LLMs) to the public.
提供机构:
OpenDataLab
创建时间:
2024-01-30
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是由中国网络空间安全协会于2023年12月20日发布的首批中文基础语料库,专为大型语言模型设计。它包含120GB的高质量中文文本数据,经过去重和过滤处理,总计1亿余条记录和500亿个token,旨在通过共建共享机制支持自然语言理解任务。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务