voidful/StrategyQA|问答系统数据集|隐式推理数据集
收藏StrategyQA 数据集概述
数据集描述
StrategyQA 数据集是通过众包流程创建的,旨在收集需要隐含推理步骤的创造性和多样性的 yes/no 问题。为了解决 StrategyQA 中的问题,需要使用一种策略来推断推理步骤。为了指导和评估问答过程,StrategyQA 中的每个示例都标注了回答该问题所需的推理步骤分解,以及提供每个步骤答案证据的 Wikipedia 段落。
数据结构
每个训练示例包含以下内容:
- 问题 (Q1)
- yes/no 答案 (A)
- 分解 (D)
- 证据段落 (E)
数据文件
相关论文
- 标题:Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies
- 作者:Mor Geva, Daniel Khashabi, Elad Segal, Tushar Khot, Dan Roth, Jonathan Berant
- 期刊:Transactions of the Association for Computational Linguistics (TACL), 2021

GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
DALY
DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。
ghdx.healthdata.org 收录
Fruits-360
一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。
github 收录
糖尿病预测数据集
糖尿病相关的医学研究或者健康数据
AI_Studio 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录