MiChao-HuaFen 1.0

Name: MiChao-HuaFen 1.0
Creator: 上海米读科技有限公司，上海人工智能实验室
Published: 2023-09-26 18:38:19
License: 暂无描述

arXiv2023-09-26 更新2024-06-21 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/WanJuan1_dot_0

下载链接

链接失效反馈

官方服务：

资源简介：

MiChao-HuaFen 1.0是由上海米读科技有限公司和上海人工智能实验室共同创建的预训练语料库数据集，专注于新闻和政府领域。该数据集包含超过7000万条数据，源自2022年的公开互联网数据，经过多轮清洗和处理确保高质量和可靠来源。创建过程中采用了关键词过滤、图像提取、基于规则的过滤和格式转换等方法。该数据集主要用于支持中文垂直领域大型模型的预训练，推动深度学习研究和应用在相关领域的发展，特别适用于AI研究者、学者以及新闻机构和政府部门。

MiChao-HuaFen 1.0 is a pre-trained corpus dataset co-created by Shanghai Midu Technology Co., Ltd. and Shanghai AI Laboratory, focusing on the news and government domains. This dataset contains over 70 million entries, sourced from public internet data in 2022, and has undergone multiple rounds of cleaning and processing to ensure high quality and reliable provenance. Methods including keyword filtering, image extraction, rule-based filtering and format conversion were adopted during its creation. This dataset is primarily used to support the pre-training of large-scale Chinese vertical-domain models, promoting the development of deep learning research and applications in relevant fields, and is particularly suitable for AI researchers, scholars, news agencies and government departments.

提供机构：

上海米读科技有限公司，上海人工智能实验室

创建时间：

2023-09-21

搜集汇总

数据集介绍

构建方式

针对新闻和政府领域的特定需求， MiChao-HuaFen 1.0 数据集通过从2022年可公开访问的互联网数据中采集文本，经过多轮清洗和加工，确保了数据的高质量和来源可靠性。数据集构建过程中，采取了关键词过滤、图像提取、基于规则的过滤、格式转换等多种处理手段，以建立一个高质量的文本模型语料库。最终清洗后的数据包含了超过7000万个条目，以及超过100万个图像链接，为特定领域的大型模型预训练提供了专门的预训练语料库。

特点

MiChao-HuaFen 1.0 数据集的特点在于其专一性、多样性和高质量。专一性体现在数据集聚焦于新闻和政府领域，为这些领域的大型模型提供针对性的预训练资源。多样性则表现在数据来源的广泛性，涵盖了多种类型和来源的数据，确保了语料库的全面性。高质量则通过多轮的数据清洗和人工审核确保数据的准确性和可靠性。此外，数据集支持持续更新，保证了其时效性和适用性。

使用方法

使用 MiChao-HuaFen 1.0 数据集时，用户需遵循相应的使用协议，并确保在使用过程中引用相关出版物。数据集可通过官方提供的链接进行访问和下载。在模型预训练阶段，用户可以直接利用该数据集进行训练，以增强模型在特定领域的表现。同时，研究者和企业机构可以利用该数据集进行模型性能的评估和优化，以实现更为精确和合规的模型输出。

背景与挑战

背景概述

随着深度学习技术的不断进步，通用型大规模模型如GPT-4在各个领域展现了卓越的能力。然而，在医疗、法律、金融等专业领域，仍然存在着对高质量、领域特定输出的需求。为了满足这一需求，'MiChao-HuaFen 1.0'专业预训练语料库数据集应运而生，该数据集专为新闻和政府领域定制，由上海牧犊科技有限公司和上海人工智能实验室的研究人员共同研发。该数据集采集自2022年公开可访问的互联网数据，经过多轮清洗和加工，确保了数据的高质量和来源的可靠性，并提供了持续稳定的更新机制。它的出现不仅支持了中文垂直领域大规模模型的预训练，也推动了相关领域深度学习研究和应用的进展。

当前挑战

该数据集在构建过程中遇到的挑战主要包括：确保数据来源的合规性和质量，特别是在新闻和政府领域，信息的准确性和可靠性至关重要；其次是对敏感信息的过滤，以避免隐私泄露和合规问题；此外，构建过程中还需解决如何提高数据集的多样性和相关性，以及如何通过不断的规则优化和质量管理确保数据集的持续更新和优化。在所解决的领域问题上，'MiChao-HuaFen 1.0'数据集旨在为新闻和政府领域的模型提供更专业和高质量的预训练语料，以满足特定领域的模型性能需求。

常用场景

经典使用场景

在深度学习技术不断进步的当下，通用型大型模型如GPT-4在多个领域展现了卓越的能力。然而，针对特定领域如新闻和政府领域，仍需高质量、领域专有的输出。为此，MiChao-HuaFen 1.0数据集应运而生，专为新闻和政府领域的大型模型预训练量身定制。该数据集的使用场景主要集中于为相关领域的大型模型提供专业且高质量的预训练语料库，以支持模型在特定领域的深入学习和优化。

解决学术问题

MiChao-HuaFen 1.0数据集的推出，解决了特定领域中大型模型缺乏专业预训练数据的问题。通过使用该数据集，研究者能够有效提升模型在新闻和政府领域的知识深度和应用能力，进而推动相关领域的学术研究和应用发展。此外，该数据集还有助于减少模型对敏感信息的依赖，提高数据的安全性和合规性。

衍生相关工作

基于MiChao-HuaFen 1.0数据集，已有多项相关工作相继展开。这些工作涉及利用该数据集对新闻和政府领域的大型模型进行预训练，以及在此基础上进行模型性能评估和应用探索。这些衍生工作进一步扩展了数据集的应用范围，推动了领域内模型的研发和应用进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集