allenai/dolma|自然语言处理数据集|机器学习数据集
收藏数据集概述
数据集名称
- 名称: Dolma
数据集描述
- 描述: Dolma是一个包含3万亿tokens的数据集,内容来源于多样化的网络内容、学术出版物、代码、书籍和百科全书材料。
数据集版本
- 当前版本: 6个版本
- v1_7: 默认版本,2024-04-15发布,4.5 TB,用于训练OLMo-7B-v1.7模型。新增来源,增强质量过滤和模糊去重。
- v1_6: 2024-01-31发布,5.4 TB,对v1.5的更新,进行文档去重。
- v1_6-sample: 2024-01-31发布,16.4 GB,约100亿tokens的小样本,用于数据探索。
- v1_5: 2023-10-31发布,6.4 TB,用于训练OLMo-1B模型,约3万亿tokens。
- v1_5-sample: 2023-10-31发布,2.9 TB,约1.9万亿tokens的样本,用于训练OLMo-7B模型。
- v1: 2023-08-18发布,6.0 TB,Dolma的首个版本。
数据集来源和处理
- 来源: 包括Common Crawl、Refined Web、StarCoder、C4、Reddit、Semantic Scholar、arXiv、StackExchange、Flan、CC News、OpenWebMath、Algebraic Stack、Project Gutenberg、MegaWika、Wikipedia & Wikibooks等。
- 处理: 使用Dolma管道进行提取和过滤,包括新的质量过滤和去重步骤。
数据集统计
- v1.7统计: 总计2532.0百万文档,2308.5亿OLMo tokens,实际用于训练的tokens为1.715万亿。
- v1.6统计: 总计4367百万文档,3059亿Llama tokens。
许可证
- 许可证: ODC-BY
下载信息
- 下载方式: 建议使用wget并行模式下载,通过克隆仓库并使用
url
目录中的文件。
引用信息
- Bibtex引用: 若使用此数据集或工具,请引用相关文献。

CosyVoice 2
CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集,旨在通过大规模多语言数据集训练,实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率,并结合预训练的大型语言模型作为骨干,支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域,旨在解决高延迟和低自然度的问题,提供接近人类水平的语音合成质量。
arXiv 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
MagicData
MAGICDATA普通话阅读语音语料库由MAGIC DATA开发 科技有限公司,并免费发布用于非商业用途。 语料库的内容和相应的描述包括: 语料库包含 755 小时的语音数据,即 主要是移动记录的数据。 来自中国不同口音地区的1080位发言者是 受邀参与录制。 句子转录准确率高于98%。 录音在安静的室内环境中进行。 数据库分为训练集、验证集和测试 以51:1:2的比例设置。 语音数据编码和说话人信息等详细信息是 保留在元数据文件中。 记录文本的领域是多样化的,包括交互式 问答、音乐搜索、SNS消息、家庭命令和控制等。 还提供了分段的成绩单。 该语料库旨在支持语音识别,机器方面的研究人员 翻译、说话人识别和其他语音相关领域。因此 语料库完全免费供学术使用。
OpenDataLab 收录
Analog Circuit Fault Diagnosis Dataset
The simulation experiment is based on Candence 16.6 software, where the tolerance of the resistance (R) is set to 5%, the tolerance of the capacitance (C) is set to 10%, the input is a single-pulse signal (amplitude 5 V, pulse width 10 µs, eriod 2ms), and the working temperature is set to 27 ℃. The operational amplifier(op-amp) uses the actual UA741 pspice model. The experiment includes the soft fault diagnosis of Sallen-Key band-pass filter circuit (TC1), Four-op-amp biquad high-pass filter circuit (TC2), and Leap-frog low-pass filter circuit (TC3). The dataset is a CSV file, with each row representing a feature vector, the last column being the data label, and the remaining columns being the feature vectors.
Mendeley Data 收录