medical-qa-id-filtered-split|医疗问答数据集|自然语言处理数据集
收藏数据集概述
数据集信息
-
特征字段:
Unnamed: 0
: 数据类型为int64
system_prompt
: 数据类型为string
qas_id
: 数据类型为string
question_text
: 数据类型为string
orig_answer_texts
: 数据类型为string
answer_lengths
: 数据类型为float64
__index_level_0__
: 数据类型为int64
-
数据集划分:
- 训练集:
- 样本数量: 89101
- 字节数: 74957465
- 验证集:
- 样本数量: 4950
- 字节数: 4202516
- 测试集:
- 样本数量: 4951
- 字节数: 4222267
- 训练集:
-
数据集大小:
- 下载大小: 42351649 字节
- 数据集总大小: 83382248 字节
配置信息
- 配置名称: default
- 数据文件路径:
- 训练集:
data/train-*
- 验证集:
data/validation-*
- 测试集:
data/test-*
- 训练集:
- 数据文件路径:
数据集处理
- 原始数据集: lintangbs/medical-qa-id-llama
- 处理内容:
- 移除空行
- 最大token数限制为1024,以适应较小的模型
数据集划分比例
- 训练集: 90%
- 验证集: 5%
- 测试集: 5%

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
Fruits-360
一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。
github 收录