Skywork/SkyPile-150B|自然语言处理数据集|语言模型预训练数据集
收藏SkyPile-150B 数据集概述
数据集简介
SkyPile-150B 是一个专为大型语言模型预训练设计的中文大型数据集。该数据集从广泛的公开中文互联网网页中提取,经过严格的过滤、去重和敏感数据筛选,确保数据质量。使用fastText和BERT等工具过滤低质量数据。
数据集规模
- 包含约23300万个独特网页。
- 每个网页平均包含超过1000个中文字符。
- 总计约1500亿个tokens和620GB的纯文本数据。
语言
数据集完全由中文数据组成。
数据字段解释
- text: 从每个页面提取并处理过的清洗文本。
数据集安全性
使用超过200万条规则和BERT-base模型检测并移除数据集中的敏感信息。
敏感信息与偏见
数据集可能包含敏感信息,如电子邮件地址、电话号码或IP地址,已通过去重和低质量过滤尽力减少此类信息。互联网数据可能包含毒性或偏见,已通过特定URL过滤方法尝试缓解,但建议用户保持警惕。
许可证
使用SkyPile数据集需遵守Skywork社区许可证,支持商业用途。如用于商业目的,还需遵守Apache2.0许可证的条款和条件。

China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
PartNet
我们介绍了PartNet: 一个一致的、大规模的三维对象数据集,用细粒度的、实例级的和分层的三维零件信息进行注释。我们的数据集包括573,585个零件实例,超过26,671个3D模型,涵盖24个对象类别。该数据集支持并充当许多任务的催化剂,例如形状分析,动态3D场景建模和仿真,可承受分析等。使用我们的数据集,我们建立了用于评估3D零件识别的三个基准任务: 细粒度语义分割,分层语义分割和实例分割。我们对四种最先进的3D深度学习算法进行了基准测试,用于细粒度语义分割,并对三种基线方法进行了基准测试。我们还提出了一种新颖的零件实例分割方法,并证明了其优于现有方法的性能。
OpenDataLab 收录
Other-Animals-10
该数据集包含103张图像,每张图像对应一个动物标签,标签类别包括熊、蜜蜂、甲虫等34种动物。数据集仅包含一个训练集,用于训练模型。
huggingface 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
