遵义市重点产业种植面积及产值|农业经济数据集|产业统计数据集
收藏hoskinson-center/proof-pile
`proof-pile`是一个13GB的数学文本预训练数据集,包含83亿个标记(使用`gpt-neox`分词器)。该数据集由多种非正式和正式数学文本来源组成,包括ArXiv.math(10GB)、开源数学教科书(50MB)、形式数学库(500MB)、Math Overflow和Math Stack Exchange(2.5GB)、Wiki风格来源(50MB)以及MATH数据集(6MB)。数据集构建过程可复现,并提供了详细的预处理步骤和过滤条件。
hugging_face 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
LSUI (Large Scale Underwater Image Dataset)
LSUI dataset is a large-scale underwater image dataset that has 5004 image pairs
kaggle 收录
Open-industrial-datasets
一个开放的工业应用数据集集合,按类别划分。欢迎提出拉取请求。如果数据集页面已经链接到论文,则不会包含论文链接。
github 收录