CoQA|对话问答数据集|多领域数据集
收藏数据集概述
数据集名称
- CoQA
数据集描述
- CoQA是一个用于构建对话式问答系统的大型数据集,包含超过127,000个问题和答案,分布在8000多个对话中。
- 每个对话由两名众包工作者围绕一个段落进行问答交流。
- CoQA的特点包括:
- 问题具有对话性质。
- 答案为自由形式的文本。
- 每个答案都附有段落中的证据子序列。
- 段落来自七个不同的领域。
数据集用途
- 用于训练和评估基于Transformer的模型,如seq2seq模型,特别是使用DistilRoBERTa和BERT-tiny模型,以提高对话式问答系统的性能。

- CoQA数据集首次发表于2018年,由Siva Reddy等人提出,旨在评估机器在对话式问答任务中的表现。
- 在2019年,CoQA数据集被广泛应用于各种自然语言处理模型中,成为评估对话式问答系统性能的重要基准。
- 2020年,随着深度学习技术的进步,基于CoQA数据集的研究取得了显著进展,多个模型在该数据集上的表现达到了新的高度。
- 2021年,CoQA数据集继续被用作评估和改进对话式问答系统的工具,推动了该领域的持续发展。
- 1CoQA: A Conversational Question Answering ChallengeStanford University · 2019年
- 2Improving Conversational Question Answering Systems after DeploymentUniversity of California, Berkeley · 2020年
- 3Conversational Question Answering over Passages by Leveraging Word Proximity NetworksUniversity of Illinois at Urbana-Champaign · 2021年
- 4A Survey on Conversational Question Answering SystemsUniversity of Waterloo · 2022年
- 5Enhancing Conversational Question Answering with Knowledge GraphsUniversity of Edinburgh · 2023年
典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
FAOSTAT Agricultural Data
FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。
www.fao.org 收录