m-a-p/MAP-CC
收藏MAP-CC 数据集概述
数据集简介
MAP-CC 是一个开源的中文预训练数据集,规模达到 800 亿个标记,为自然语言处理社区提供高质量的中文预训练数据。
免责声明
该模型为学术目的开发,使用经过严格合规检查的训练数据,以维护最高标准的完整性和合规性。尽管我们做出了努力,但由于数据的固有复杂性和模型的广泛应用范围,我们无法保证模型输出在所有场景下的绝对准确性或适当性。
我们强调,该模型及其相关训练数据仅用于学术研究。我们明确声明,对于因不当使用、解释错误、非法活动、虚假信息传播或与使用我们的模型或其训练数据相关的任何数据安全问题所产生的问题,我们不承担任何责任。
我们强烈鼓励用户将任何有关数据滥用、安全漏洞或潜在侵权问题的担忧直接报告给我们,以便立即进行调查和解决。
联系方式
- ge.zhang@uwaterloo.ca
- duxinrun2000@gmail.com
许可证
MAP-CC 数据集根据知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议(CC BY-NC-ND 4.0)提供。
通过使用 MAP-CC 数据集,您接受并同意遵守 CC BY-NC-ND 4.0 许可协议的条款和条件。该许可证允许用户仅出于非商业目的共享(以任何媒介或格式复制和重新分发材料)MAP-CC 数据集,并且不得进行修改或衍生,只要给予创作者适当的署名。有关更多详细信息,请参阅 LICENSE 文件。
我们选择 CC BY-NC-ND 4.0 许可证是为了促进学术和教育用途,促进知识的传播,同时保护创作者的工作免受未经授权的商业使用或修改。
使用说明
下载数据集的部分文件后,您可以在类 UNIX 终端中使用以下命令将它们合并为一个文件:
bash cat [split].gz.part* > [split].gz
将 [split] 替换为您希望合并的数据集组件名称(zh-cc、zh-baike、zh-papers、zh-books 或 zh-others)。合并后,解压缩 .gz 文件以访问数据集的内容。
数据集组成
数据集由几个组件组成,每个组件来自不同的来源,服务于语言建模和处理的各个目的。以下是每个组件的简要概述:
-
zh-cc (Chinese Common Crawl)
从 Common Crawl 项目中专门筛选出的中文内容提取物。该组件包含多样化的互联网文本,如网站、博客、新闻文章等。 -
zh-baike (Chinese Encyclopedias)
来自各种中文百科全书的条目集合,类似于维基百科,但包括其他百科全书来源。 -
zh-papers (Chinese Academic Papers)
包含用中文发表的学术和研究论文。它涵盖了广泛的学科,并提供技术性的、特定领域的语言。 -
zh-books (Chinese Books)
包含从用中文出版的书籍中提取的文本。这包括文学、非小说、教科书等。 -
zh-others
这一类别是各种文本的集合,特别包括大量的 QA(问答)数据,以及其他各种文本。
引用
@misc{du2024chinese, title={Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model}, author={Xinrun Du and Zhouliang Yu and Songyang Gao and Ding Pan and Yuyang Cheng and Ziyang Ma and Ruibin Yuan and Xingwei Qu and Jiaheng Liu and Tianyu Zheng and Xinchen Luo and Guorui Zhou and Binhang Yuan and Wenhu Chen and Jie Fu and Ge Zhang}, year={2024}, eprint={2404.04167}, archivePrefix={arXiv}, primaryClass={cs.CL} }

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
CIFAR-10
CIFAR-10 数据集由 10 个类别的 60000 个 32x32 彩色图像组成,每个类别包含 6000 个图像。有 50000 个训练图像和 10000 个测试图像。 数据集分为五个训练批次和一个测试批次,每个批次有 10000 张图像。测试批次恰好包含来自每个类别的 1000 个随机选择的图像。训练批次包含随机顺序的剩余图像,但一些训练批次可能包含来自一个类的图像多于另一个。在它们之间,训练批次恰好包含来自每个类别的 5000 张图像。
OpenDataLab 收录
典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录