hotpotqa/hotpot_qa|问答系统数据集|自然语言处理数据集
收藏数据集概述
基本信息
- 数据集名称: HotpotQA
- 语言: 英语
- 许可证: CC BY-SA 4.0
- 多语言性: 单语种
- 标签: multi-hop
- 数据集大小: 100K<n<1M
- 源数据: 原始数据
- 任务类别: 问答
数据集配置
distractor
- 特征:
id
: 字符串question
: 字符串answer
: 字符串type
: 字符串level
: 字符串supporting_facts
: 字典,包含title
(字符串)和sent_id
(int32)context
: 字典,包含title
(字符串)和sentences
(字符串列表)
- 分割:
train
: 90447个样本,552949315字节validation
: 7405个样本,45716111字节
- 下载大小: 612746344字节
- 数据集大小: 598665426字节
fullwiki
- 特征:
id
: 字符串question
: 字符串answer
: 字符串type
: 字符串level
: 字符串supporting_facts
: 字典,包含title
(字符串)和sent_id
(int32)context
: 字典,包含title
(字符串)和sentences
(字符串列表)
- 分割:
train
: 90447个样本,552949315字节validation
: 7405个样本,46848601字节test
: 7405个样本,46000102字节
- 下载大小: 660094672字节
- 数据集大小: 645798018字节

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录