allenai/qasper|自然语言处理数据集|问答系统数据集
收藏数据集概述
名称: QASPER
语言: 英语(en-US)
许可证: CC BY 4.0
多语言性: 单语
大小: 10K<n<100K
来源数据集: 扩展自s2orc
任务类别: 问答(question-answering)
任务ID: closed-domain-qa
论文代码ID: qasper
数据集描述
概述: QASPER是一个针对科学研究论文的问答数据集,包含5,049个问题,涉及1,585篇自然语言处理(NLP)论文。每个问题由阅读了论文标题和摘要的NLP实践者编写,旨在从全文获取信息。问题的答案由另一组NLP实践者提供,并附有支持证据。
支持的任务和排行榜:
- 问答(question-answering): 用于训练问答模型,成功标准为高F1分数。官方基线模型使用Longformer,当前Token F1分数为33.63。
- 证据选择(evidence-selection): 用于训练证据选择模型,成功标准为高F1分数。官方基线模型使用Longformer,当前F1分数为39.37。
数据集结构
数据实例: 每个实例包括论文ID、标题、摘要、全文(包含段落和节标题)、问题和答案(包括回答者ID、答案内容、证据和支持的段落)。
数据字段:
- 问题相关字段: 包括问题编写者的NLP背景、主题背景、是否阅读过论文及搜索查询。
- 答案相关字段: 包括是否可回答、提取的答案段落、自由形式答案、是/否答案、证据和支持的文本段落。
数据分割:
- 训练集: 888篇论文,2593个问题,2675个答案。
- 验证集: 281篇论文,1005个问题,1764个答案。
数据集创建
注释者: 由NLP实践者进行注释,非专家研究人员。
许可证: 数据集遵循CC BY 4.0许可证。
引用信息:
@inproceedings{Dasigi2021ADO, title={A Dataset of Information-Seeking Questions and Answers Anchored in Research Papers}, author={Pradeep Dasigi and Kyle Lo and Iz Beltagy and Arman Cohan and Noah A. Smith and Matt Gardner}, year={2021} }

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
TM-Senti
TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。
arXiv 收录
中指数据库(物业版)
物业版解决物业企业“找项目”、“找行业和企业数据"的迫切需求,提供高效的市场拓展渠道、最新行业动态、竞品企业的多维度数据,助力企业科学决策。
西部数据交易中心 收录
DAT
DAT是一个统一的跨场景跨领域基准,用于开放世界无人机主动跟踪。它提供了24个视觉复杂的场景,以评估算法的跨场景和跨领域泛化能力,并具有高保真度的现实机器人动力学建模。
github 收录