togethercomputer/RedPajama-Data-1T-Sample|自然语言处理数据集|开源数据集数据集
收藏数据集概述
数据集名称
RedPajama
数据集摘要
RedPajama是一个遵循LLaMa论文的完全开源实现的数据集。本仓库包含RedPajama数据集的一个1亿token样本。完整数据集包含以下token计数,并可从此处下载:
| 数据集 | Token计数 |
|---|---|
| Commoncrawl | 8780亿 |
| C4 | 1750亿 |
| GitHub | 590亿 |
| Books | 260亿 |
| ArXiv | 280亿 |
| Wikipedia | 240亿 |
| StackExchange | 200亿 |
| 总计 | 1.2万亿 |
语言
主要为英语,但Wikipedia部分包含多种语言。
数据集结构
数据集结构如下: json { "text": ..., "meta": {"url": "...", "timestamp": "...", "source": "...", "language": "...", ...} }
数据集创建
数据集的创建旨在尽可能遵循LLaMa论文,以尝试重现其配方。
源数据
- Commoncrawl: 下载五个Commoncrawl转储,并通过官方
cc_net管道运行。在段落级别进行去重,并使用线性分类器过滤低质量文本。 - C4: 从Huggingface下载,唯一的预处理步骤是将数据转换为我们的格式。
- GitHub: 从Google BigQuery下载原始数据,在文件级别去重,并仅保留MIT、BSD或Apache许可下的项目。
- Wikipedia: 使用基于2023-03-20 Wikipedia转储的Huggingface数据集,包含20种不同语言的文本。
- Gutenberg和Books3: 下载PG19子集,使用simhash去除近似重复。
- ArXiv: 从Amazon S3的
arxiv请求者付费桶下载,仅保留latex源文件。 - Stackexchange: 从Internet Archive下载,仅保留来自28个最大站点的帖子,并将其分组为问题-答案对。

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
ChemBL
ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。
www.ebi.ac.uk 收录
中国1km分辨率逐月降水量数据集(1901-2024)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
大学生运动和体质健康数据集(2014-2023)
《大学生运动与体质健康数据集(2014-2023)》涵盖了大学生群体在运动能力、基础身体形态、身体机能及身体素质等多个方面的关键基础数据。该数据集的采集时间跨度为2014年至2023年,样本采集自全国34个省级行政区域,共计123281名大学生参与,平均年龄为20.53岁。建立大学生运动和体质健康数据集可以准确把握学生体质健康的整体水平和变化趋势,了解大学生运动和体质健康状况,对指导个性化健康干预、优化体育教育资源配置、支持促进科学研究以及提高公众健康意识等均具有重要意义。
国家人口健康科学数据中心 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录
