deepmind/aqua_rat|代数问题解答数据集|自然语言处理数据集
收藏数据集概述
数据集基本信息
- 名称: Algebra Question Answering with Rationales (AQUA-RAT)
- 语言: 英语 (en)
- 许可证: Apache-2.0
- 多语言性: 单语种
- 大小: 10K<n<100K
- 源数据: 原始数据
- 任务类别: 问答 (question-answering)
- 任务ID: 多选题问答 (multiple-choice-qa)
数据集结构
- 配置名称: raw 和 tokenized
- 特征:
question
: 字符串类型,问题的自然语言描述options
: 字符串序列,包含5个可能的选项,其中一个正确rationale
: 字符串类型,问题的解决方案的自然语言描述correct
: 字符串类型,正确选项
- 数据分割:
- 训练集: 97467个例子,42333059字节 (raw) / 46493643字节 (tokenized)
- 测试集: 254个例子,116759字节 (raw) / 126263字节 (tokenized)
- 验证集: 254个例子,118616字节 (raw) / 128853字节 (tokenized)
- 下载大小: 25568676字节 (raw) / 26429873字节 (tokenized)
- 数据集大小: 42568434字节 (raw) / 46748759字节 (tokenized)
数据集创建
- 注释创建者: 众包
- 语言创建者: 众包和专家生成
- 许可证信息: 遵循Apache License, Version 2.0
引用信息
@article{ling2017program, title={Program induction by rationale generation: Learning to solve and explain algebraic word problems}, author={Ling, Wang and Yogatama, Dani and Dyer, Chris and Blunsom, Phil}, journal={ACL}, year={2017} }

UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
中指数据库(物业版)
物业版解决物业企业“找项目”、“找行业和企业数据"的迫切需求,提供高效的市场拓展渠道、最新行业动态、竞品企业的多维度数据,助力企业科学决策。
西部数据交易中心 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
Autism-Datasets
收集了一些关于自闭症的数据集。
github 收录
中国裁判文书网
中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。
wenshu.court.gov.cn 收录