din0s/asqa|自然语言处理数据集|问答系统数据集
收藏数据集概述
数据集名称
- 名称:ASQA
- 别名:无
数据集基本信息
- 语言:英语
- 许可证:Apache-2.0
- 多语言性:单语
- 大小:1K<n<10K
- 来源数据集:扩展自Ambig_QA
- 标签:事实性问题、长篇答案
- 任务类别:问答
- 任务ID:开放领域问答
数据集描述
- 概述:ASQA是首个专注于模糊事实性问题的长篇问答数据集。与以往的长篇答案数据集不同,每个问题都标注了长篇答案和可从生成文本中提取的问题-答案对。长篇答案的评估使用ROUGE和QA准确性两种指标,这些指标与人类判断高度相关。
支持的任务和排行榜
- 任务:长篇问答
- 排行榜:ASQA Leaderboard
数据集结构
- 数据实例:包含模糊问题、Q&A对、长篇答案等。
- 数据字段:包括
ambiguous_question
、annotations
、qa_pairs
等。 - 数据分割:训练集4353个实例,开发集948个实例。
附加信息
- 贡献者:@din0s

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。
国家海洋科学数据中心 收录
PCLT20K
PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。
arXiv 收录
中国省级灾害统计空间分布数据集(1999-2020年)
该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。
国家地球系统科学数据中心 收录