allenai/dolma|自然语言处理数据集|机器学习数据集
收藏数据集概述
数据集名称
- 名称: Dolma
数据集描述
- 描述: Dolma是一个包含3万亿tokens的数据集,内容来源于多样化的网络内容、学术出版物、代码、书籍和百科全书材料。
数据集版本
- 当前版本: 6个版本
- v1_7: 默认版本,2024-04-15发布,4.5 TB,用于训练OLMo-7B-v1.7模型。新增来源,增强质量过滤和模糊去重。
- v1_6: 2024-01-31发布,5.4 TB,对v1.5的更新,进行文档去重。
- v1_6-sample: 2024-01-31发布,16.4 GB,约100亿tokens的小样本,用于数据探索。
- v1_5: 2023-10-31发布,6.4 TB,用于训练OLMo-1B模型,约3万亿tokens。
- v1_5-sample: 2023-10-31发布,2.9 TB,约1.9万亿tokens的样本,用于训练OLMo-7B模型。
- v1: 2023-08-18发布,6.0 TB,Dolma的首个版本。
数据集来源和处理
- 来源: 包括Common Crawl、Refined Web、StarCoder、C4、Reddit、Semantic Scholar、arXiv、StackExchange、Flan、CC News、OpenWebMath、Algebraic Stack、Project Gutenberg、MegaWika、Wikipedia & Wikibooks等。
- 处理: 使用Dolma管道进行提取和过滤,包括新的质量过滤和去重步骤。
数据集统计
- v1.7统计: 总计2532.0百万文档,2308.5亿OLMo tokens,实际用于训练的tokens为1.715万亿。
- v1.6统计: 总计4367百万文档,3059亿Llama tokens。
许可证
- 许可证: ODC-BY
下载信息
- 下载方式: 建议使用wget并行模式下载,通过克隆仓库并使用
url目录中的文件。
引用信息
- Bibtex引用: 若使用此数据集或工具,请引用相关文献。

giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9
该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。
huggingface 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
Other-Animals-10
该数据集包含103张图像,每张图像对应一个动物标签,标签类别包括熊、蜜蜂、甲虫等34种动物。数据集仅包含一个训练集,用于训练模型。
huggingface 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
