m-a-p/MAP-CC

hugging_face2024-07-11 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/m-a-p/MAP-CC

下载链接

链接失效反馈

资源简介：

MAP-CC是一个开源的中文预训练数据集，包含8000亿个标记，旨在为NLP社区提供高质量的中文预训练数据。数据集由多个部分组成，包括来自Common Crawl的中文内容、中文百科全书、中文学术论文、中文书籍和其他杂项文本。数据集的使用受到CC BY-NC-ND 4.0许可的限制，仅允许非商业用途，且不允许修改或衍生作品。

MAP-CC is an open-source Chinese pretraining dataset with a scale of 800 billion tokens, offering the NLP community high-quality Chinese pretraining data. The dataset consists of several components, including extracts from the Common Crawl specifically filtered for Chinese content, Chinese encyclopedias, Chinese academic papers, Chinese books, and miscellaneous texts. The use of the dataset is restricted by the CC BY-NC-ND 4.0 license, allowing only non-commercial use and prohibiting modifications or derivative works.

提供机构：

m-a-p

原始信息汇总

MAP-CC 数据集概述

数据集简介

MAP-CC 是一个开源的中文预训练数据集，规模达到 800 亿个标记，为自然语言处理社区提供高质量的中文预训练数据。

免责声明

该模型为学术目的开发，使用经过严格合规检查的训练数据，以维护最高标准的完整性和合规性。尽管我们做出了努力，但由于数据的固有复杂性和模型的广泛应用范围，我们无法保证模型输出在所有场景下的绝对准确性或适当性。

我们强调，该模型及其相关训练数据仅用于学术研究。我们明确声明，对于因不当使用、解释错误、非法活动、虚假信息传播或与使用我们的模型或其训练数据相关的任何数据安全问题所产生的问题，我们不承担任何责任。

我们强烈鼓励用户将任何有关数据滥用、安全漏洞或潜在侵权问题的担忧直接报告给我们，以便立即进行调查和解决。

联系方式

ge.zhang@uwaterloo.ca
duxinrun2000@gmail.com

许可证

MAP-CC 数据集根据知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议（CC BY-NC-ND 4.0）提供。

通过使用 MAP-CC 数据集，您接受并同意遵守 CC BY-NC-ND 4.0 许可协议的条款和条件。该许可证允许用户仅出于非商业目的共享（以任何媒介或格式复制和重新分发材料）MAP-CC 数据集，并且不得进行修改或衍生，只要给予创作者适当的署名。有关更多详细信息，请参阅 LICENSE 文件。

我们选择 CC BY-NC-ND 4.0 许可证是为了促进学术和教育用途，促进知识的传播，同时保护创作者的工作免受未经授权的商业使用或修改。

使用说明

下载数据集的部分文件后，您可以在类 UNIX 终端中使用以下命令将它们合并为一个文件：

bash cat [split].gz.part* > [split].gz

将 [split] 替换为您希望合并的数据集组件名称（zh-cc、zh-baike、zh-papers、zh-books 或 zh-others）。合并后，解压缩 .gz 文件以访问数据集的内容。

数据集组成

数据集由几个组件组成，每个组件来自不同的来源，服务于语言建模和处理的各个目的。以下是每个组件的简要概述：

zh-cc (Chinese Common Crawl)
从 Common Crawl 项目中专门筛选出的中文内容提取物。该组件包含多样化的互联网文本，如网站、博客、新闻文章等。
zh-baike (Chinese Encyclopedias)
来自各种中文百科全书的条目集合，类似于维基百科，但包括其他百科全书来源。
zh-papers (Chinese Academic Papers)
包含用中文发表的学术和研究论文。它涵盖了广泛的学科，并提供技术性的、特定领域的语言。
zh-books (Chinese Books)
包含从用中文出版的书籍中提取的文本。这包括文学、非小说、教科书等。
zh-others
这一类别是各种文本的集合，特别包括大量的 QA（问答）数据，以及其他各种文本。

引用

@misc{du2024chinese, title={Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model}, author={Xinrun Du and Zhouliang Yu and Songyang Gao and Ding Pan and Yuyang Cheng and Ziyang Ma and Ruibin Yuan and Xingwei Qu and Jiaheng Liu and Tianyu Zheng and Xinchen Luo and Guorui Zhou and Binhang Yuan and Wenhu Chen and Jie Fu and Ge Zhang}, year={2024}, eprint={2404.04167}, archivePrefix={arXiv}, primaryClass={cs.CL} }

AI搜集汇总

数据集介绍

构建方式

MAP-CC数据集的构建基于对多种中文资源的广泛采样，包括从Common Crawl项目中筛选的中文内容、各类中文百科全书、学术论文、书籍以及其他多种文本类型。这些数据源经过严格的合规性检查，确保数据的高质量和适用性。通过整合这些不同来源的数据，MAP-CC数据集形成了规模达8000亿个token的预训练数据集，为自然语言处理社区提供了丰富且多样化的中文预训练资源。

使用方法

使用MAP-CC数据集时，用户首先需要下载数据集的各个部分，然后通过UNIX终端命令将这些部分合并为一个文件。具体操作包括使用`cat`命令将各部分文件合并，并解压缩生成的.gz文件以访问数据内容。数据集的各个组件（如zh-cc、zh-baike、zh-papers等）可以根据具体需求分别使用，为不同的语言建模和处理任务提供支持。

背景与挑战

背景概述

MAP-CC数据集是由中国微型语言模型（Chinese Tiny LLM）项目团队开发的一个开源中文预训练数据集，其规模达到8000亿个标记。该数据集的创建旨在为自然语言处理（NLP）社区提供高质量的中文预训练数据，以推动中文语言模型的发展。主要研究人员包括Xinrun Du、Ge Zhang等，他们来自滑铁卢大学等机构。MAP-CC数据集的核心研究问题是如何有效地收集、处理和利用大规模中文文本数据，以提升语言模型的性能和泛化能力。该数据集的发布对中文NLP领域具有重要影响，为研究人员提供了丰富的资源，有助于推动相关技术的进步。

当前挑战

MAP-CC数据集在构建过程中面临多项挑战。首先，数据来源的多样性带来了数据质量和一致性的问题，需要进行严格的筛选和清洗。其次，数据集的规模庞大，如何高效地存储、处理和分发数据成为一大难题。此外，确保数据的安全性和隐私保护，避免数据滥用和侵权行为，也是该数据集必须面对的重要挑战。最后，如何在不侵犯版权的前提下，合法地收集和使用各种类型的中文文本数据，是构建过程中需要解决的法律和伦理问题。

常用场景

经典使用场景

在自然语言处理领域，MAP-CC数据集以其庞大的规模和高质量的中文预训练数据而著称。该数据集的经典使用场景主要集中在语言模型的预训练阶段，通过提供丰富的中文文本资源，帮助模型学习中文语言的语法、语义和上下文关系。这种预训练不仅提升了模型在中文文本生成、理解和翻译等任务上的表现，还为后续的微调任务奠定了坚实的基础。

解决学术问题

MAP-CC数据集在学术研究中解决了中文自然语言处理领域长期面临的预训练数据稀缺和高质问题。通过提供800亿个中文标记的预训练数据，该数据集显著提升了中文语言模型的性能，特别是在处理复杂语境和多义词方面。这不仅推动了中文自然语言处理技术的发展，还为跨语言研究提供了宝贵的资源，促进了全球语言技术的均衡进步。

实际应用

在实际应用中，MAP-CC数据集被广泛用于开发和优化中文智能助手、机器翻译系统、文本分析工具等。例如，在智能客服领域，预训练后的模型能够更准确地理解用户查询并提供相应的解答；在新闻摘要生成中，模型能够自动提取关键信息，生成简洁且准确的新闻摘要。这些应用极大地提升了中文信息处理的效率和准确性，推动了相关行业的智能化进程。

数据集最近研究

最新研究方向

在自然语言处理领域，MAP-CC数据集因其庞大的规模和高质量的中文预训练数据而备受关注。最新研究方向主要集中在利用该数据集进行中文语言模型的预训练和微调，以提升模型在多任务处理中的表现。研究者们致力于通过MAP-CC数据集中的多样化文本来源，包括学术论文、百科全书和常见网页等，来增强模型的语言理解和生成能力。此外，该数据集还被用于探索跨语言模型的性能提升，特别是在中英文双语环境下的应用。这些研究不仅推动了中文自然语言处理技术的发展，也为全球多语言模型的研究提供了宝贵的资源和参考。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

AGIEval

displayName: AGIEval license: - MIT taskTypes: [] mediaTypes: - Text labelTypes: [] tags: - attrs: null id: 11864 name: en: '' zh: 文本检索 publisher: - Microsoft publishDate: '2023-04-01' publishUrl: https://huggingface.co/datasets/lighteval/agi_eval_en paperUrl: https://arxiv.org/pdf/2304.06364.pdf --- # 数据集介绍 ## 简介 AGIEval is a human-centric benchmark specifically designed to evaluate the general abilities of foundation models in tasks pertinent to human cognition and problem-solving. This benchmark is derived from 20 official, public, and high-standard admission and qualification exams intended for general human test-takers, such as general college admission tests (e.g., Chinese College Entrance Exam (Gaokao) and American SAT), law school admission tests, math competitions, lawyer qualification tests, and national civil service exams. For a full description of the benchmark ## 引文 ``` @misc{zhong2023agieval, title={AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models}, author={Wanjun Zhong and Ruixiang Cui and Yiduo Guo and Yaobo Liang and Shuai Lu and Yanlin Wang and Amin Saied and Weizhu Chen and Nan Duan}, year={2023}, eprint={2304.06364}, archivePrefix={arXiv}, primaryClass={cs.CL} ``` ## Download dataset :modelscope-code[]{type="git"}

魔搭社区收录

UAVDT Dataset

The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.

datasetninja.com 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

限额以上批发业法人企业

限额以上批发业法人企业，包含按登记注册类型分、按国民经济行业分（2017）的限额以上批发业法人企业个数、从业人数、购进总额、销售总额、年末库存额等信息。

贵州省公共数据授权运营-公共数据开放平台收录