蜜巢·花粉1.0
收藏OpenDataLab2026-05-31 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/MiChao
下载链接
链接失效反馈官方服务:
资源简介:
蜜巢·花粉1.0开源数据集为文本数据集。数据集由互联网公开可访问网站2022年历史数据收集整理而成,数据总量7000余万条。数据集具备来源可靠,数据质量高,可持续稳定更新等特点。蜜巢·花粉数据集已被应用于多个大模型的训练,为媒体垂直领域提供基于材料的知识问答与内容生成、分析报告自动生成、文稿内容审校与润色改写等各类智能生成式服务。
The MiChao·Pollen 1.0 Open-Source Dataset is a text-based dataset. It is collected and organized from historical data of publicly accessible websites on the Internet in 2022, with a total of over 70 million entries. This dataset features reliable sources, high data quality, and sustainable and stable update capabilities. The MiChao·Pollen dataset has been applied in the training of multiple Large Language Models (LLMs), and provides various intelligent generative services for the vertical media field, including material-based knowledge Q&A and content generation, automatic generation of analytical reports, as well as manuscript proofreading, polishing and rewriting.
提供机构:
OpenDataLab
创建时间:
2023-09-06
搜集汇总
数据集介绍

背景与挑战
背景概述
蜜巢·花粉1.0是一个高质量的中文文本数据集,来源于2022年互联网公开数据,覆盖新闻、政务等领域,清洗后包含7000余万条文本和100余万图片链接,总大小240 GB。该数据集经过严格处理(如关键词过滤和规则过滤),采用CC BY-SA 4.0许可,已用于大模型训练,支持媒体垂直领域的知识问答、内容生成等智能服务。
以上内容由遇见数据集搜集并总结生成



