allenai/dolma|自然语言处理数据集|机器学习数据集
收藏数据集概述
数据集名称
- 名称: Dolma
数据集描述
- 描述: Dolma是一个包含3万亿tokens的数据集,内容来源于多样化的网络内容、学术出版物、代码、书籍和百科全书材料。
数据集版本
- 当前版本: 6个版本
- v1_7: 默认版本,2024-04-15发布,4.5 TB,用于训练OLMo-7B-v1.7模型。新增来源,增强质量过滤和模糊去重。
- v1_6: 2024-01-31发布,5.4 TB,对v1.5的更新,进行文档去重。
- v1_6-sample: 2024-01-31发布,16.4 GB,约100亿tokens的小样本,用于数据探索。
- v1_5: 2023-10-31发布,6.4 TB,用于训练OLMo-1B模型,约3万亿tokens。
- v1_5-sample: 2023-10-31发布,2.9 TB,约1.9万亿tokens的样本,用于训练OLMo-7B模型。
- v1: 2023-08-18发布,6.0 TB,Dolma的首个版本。
数据集来源和处理
- 来源: 包括Common Crawl、Refined Web、StarCoder、C4、Reddit、Semantic Scholar、arXiv、StackExchange、Flan、CC News、OpenWebMath、Algebraic Stack、Project Gutenberg、MegaWika、Wikipedia & Wikibooks等。
- 处理: 使用Dolma管道进行提取和过滤,包括新的质量过滤和去重步骤。
数据集统计
- v1.7统计: 总计2532.0百万文档,2308.5亿OLMo tokens,实际用于训练的tokens为1.715万亿。
- v1.6统计: 总计4367百万文档,3059亿Llama tokens。
许可证
- 许可证: ODC-BY
下载信息
- 下载方式: 建议使用wget并行模式下载,通过克隆仓库并使用
url
目录中的文件。
引用信息
- Bibtex引用: 若使用此数据集或工具,请引用相关文献。

中国1km分辨率逐月平均气温数据集(1901-2024)
该数据为中国逐月平均温度数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。数据单位为0.1 ℃。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
DermNet
DermNet是一个包含皮肤病图像的数据集,涵盖了多种皮肤病类型,如痤疮、湿疹、牛皮癣等。该数据集主要用于皮肤病诊断和研究。
www.dermnetnz.org 收录
dacl1k
dacl1k是一个专注于实际桥梁损伤检测的多标签分类数据集,由联邦国防军大学创建。该数据集包含1,474张图像,这些图像来源于实际的建筑检查,涉及多种损伤类型,如裂缝、风化、剥落、暴露钢筋和锈蚀等。dacl1k数据集的创建过程涉及专业工程师的标注,确保了数据的高质量和准确性。该数据集主要用于评估和改进桥梁损伤识别模型,特别是在实际应用场景中的性能。
arXiv 收录
HotpotQA
HotpotQA 是收集在英语维基百科上的问答数据集,包含大约 113K 众包问题,这些问题的构建需要两篇维基百科文章的介绍段落才能回答。数据集中的每个问题都带有两个黄金段落,以及这些段落中的句子列表,众包工作人员认为这些句子是回答问题所必需的支持事实。 HotpotQA 提供了多种推理策略,包括涉及问题中缺失实体的问题、交叉问题(什么满足属性 A 和属性 B?)和比较问题,其中两个实体通过一个共同属性进行比较等。在少文档干扰设置中,QA 模型有 10 个段落,保证能找到黄金段落;在开放域全维基设置中,模型只给出问题和整个维基百科。模型根据其答案准确性和可解释性进行评估,其中前者被测量为具有完全匹配 (EM) 和 unigram F1 的预测答案和黄金答案之间的重叠,后者关注预测的支持事实句子与人类注释的匹配程度(Supporting Fact EM/F1)。该数据集还报告了一个联合指标,它鼓励系统同时在两项任务上表现良好。 来源:通过迭代查询生成回答复杂的开放域问题
OpenDataLab 收录
NIST Thermochemical Database
NIST Thermochemical Database(NIST热化学数据库)是一个包含大量热化学数据的数据集,涵盖了各种化学物质的热力学性质,如焓、熵、自由能等。该数据库由美国国家标准与技术研究院(NIST)维护,旨在为科学研究和工业应用提供准确的热化学数据。
webbook.nist.gov 收录