IndustryCorpus_agriculture|农业数据集|预训练数据集数据集
收藏数据集概述
数据集描述
- 语言: 中文和英文
- 数据量: 1TB中文数据,2.4TB英文数据
- 任务类别: 文本生成
- 行业分类: 18个行业类别,包括医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等
数据处理
- 数据来源: 从超过100TB的开放源数据集中筛选,包括WuDaoCorpora, BAAI-CCI, redpajama, SkyPile-150B
- 数据处理操作: 应用22个行业数据处理操作符进行清洗和过滤
- 规则过滤: 传统中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等
- 模型过滤: 行业分类语言模型,准确率80%
- 数据去重: MinHash文档级去重
数据标注
- 中文数据标注: 12种标签,包括字母数字比、平均行长度、语言置信度分数、最大行长度、困惑度等
数据集性能验证
- 验证方法: 在医疗行业示范模型上进行持续预训练、SFT和DPO训练
- 性能提升: 客观性能提升20%,主观胜率82%
行业分类数据量
行业类别 | 数据量 (GB) | 行业类别 | 数据量 (GB) |
---|---|---|---|
编程 | 4.1 | 政治 | 326.4 |
法律 | 274.6 | 数学 | 5.9 |
教育 | 458.1 | 体育 | 442 |
金融 | 197.8 | 文学 | 179.3 |
计算机科学 | 46.9 | 新闻 | 564.1 |
技术 | 333.6 | 影视 | 162.1 |
旅游 | 82.5 | 医疗 | 189.4 |
农业 | 41.6 | 汽车 | 40.8 |
情感 | 31.7 | 人工智能 | 5.6 |
总计 (GB) | 3386.5 |

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录