SQUAD dataset|问答系统数据集|自然语言处理数据集
收藏数据集概述
数据集名称
SQUAD Dataset
数据集内容
- 训练数据: 可从以下链接获取:https://rajpurkar.github.io/SQuAD-explorer/dataset/train-v1.1.json
- 测试数据: 可从以下链接获取:https://rajpurkar.github.io/SQuAD-explorer/dataset/dev-v1.1.json
数据集获取方式
- 可通过直接访问上述链接下载。
- 使用
setup.py
脚本自动下载数据集。
附加资源
- Glove Embeddings: 可从http://nlp.stanford.edu/data/glove.840B.300d.zip下载。
- 使用
setup.py
脚本下载并准备Glove embeddings。
运行指南
-
下载必要的库和SQUAD数据集后,运行以下命令:
py -3 train.py

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
MMAUD
MMAUD数据集是由南洋理工大学电气与电子工程学院创建,专注于小型无人机的检测、分类和轨迹估计。该数据集结合了多种传感器输入,包括立体视觉、多种激光雷达、雷达和音频阵列,以高保真度模拟真实世界场景。MMAUD提供了由Leica生成的精确地面实况数据,增强了数据集的可信度,并支持算法的精确和高效开发。数据集的应用领域包括无人机威胁检测、分类和轨迹估计,旨在解决现代微型无人机威胁带来的挑战。
arXiv 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
CliMedBench
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
arXiv 收录
riotu-lab/Synthetic-UAV-Flight-Trajectories
该数据集包含超过5000条随机无人机(UAV)轨迹,这些轨迹是在20小时的飞行时间内收集的,主要用于训练AI模型,如轨迹预测应用。数据集通过自动化管道生成和预处理无人机合成轨迹,使其可以直接用于AI模型训练。数据集的特点是参数化的轨迹,遵循预定义的模式,特别是圆形和无限路径。数据集的结构包括数据字段,如时间戳和无人机的3D位置(x, y, z坐标)。
hugging_face 收录