five

rizquuula/commonsense_qa-ID

收藏
Hugging Face2023-09-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rizquuula/commonsense_qa-ID
下载链接
链接失效反馈
官方服务:
资源简介:
CommonsenseQA-ID是CommonsenseQA的印尼语翻译版本,使用了Google Translation API v2/v3 Basic进行翻译。该数据集是一个多选问答数据集,需要不同类型的常识知识来预测正确答案。数据集包含12,102个问题,每个问题有一个正确答案和四个干扰答案。数据集分为训练集、验证集和测试集,分别包含9741、1221和1140个样本。数据集的语言为印尼语(id),并且遵循MIT许可证。

CommonsenseQA-ID is the Indonesian translation of CommonsenseQA, which was translated using Google Translation API v2/v3 Basic. This is a multiple-choice question answering dataset that necessitates diverse types of commonsense knowledge to predict the correct answer. The dataset consists of 12,102 questions, each with one correct answer and four distractor answers. It is divided into training, validation, and test sets, containing 9741, 1221, and 1140 samples respectively. The dataset is in Indonesian (id) and is licensed under the MIT License.
提供机构:
rizquuula
原始信息汇总

数据集概述

数据集描述

  • 名称: CommonsenseQA-ID
  • 语言: 印度尼西亚语 (id)
  • 许可证: MIT License
  • 多语言性: 单语种
  • 大小类别: 1K<n<10K
  • 源数据集: 机器翻译
  • 任务类别: 问答
  • 任务ID: 开放领域问答
  • Papers with Code ID: commonsenseqa

数据结构

数据实例

默认

  • 下载数据集文件大小: 4.68 MB
  • 生成数据集大小: 2.18 MB
  • 总磁盘使用量: 6.86 MB

训练集示例: json { "id": "61fe6e879ff18686d7552425a36344c8", "question": "Sammy ingin pergi ke tempat orang-orang itu berada. Ke mana dia bisa pergi?", "question_concept": "rakyat", "choices": { "label": ["A", "B", "C", "D", "E"], "text": ["trek balap", "daerah berpenduduk", "gurun pasir", "Apartemen", "penghalang jalan"] }, "answerKey": "B" }

数据字段

所有分割的数据字段相同:

  • id (str): 唯一ID。
  • question: 字符串特征。
  • question_concept (str): 与问题相关的ConceptNet概念。
  • choices: 包含以下内容的字典特征:
    • label: 字符串特征。
    • text: 字符串特征。
  • answerKey: 字符串特征。

数据分割

名称 训练集 验证集 测试集
默认 9741 1221 1140

许可证信息

该数据集在MIT许可证下发布。

引用信息

bibtex @inproceedings{talmor-etal-2019-commonsenseqa, title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge", author = "Talmor, Alon and Herzig, Jonathan and Lourie, Nicholas and Berant, Jonathan", booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)", month = jun, year = "2019", address = "Minneapolis, Minnesota", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/N19-1421", doi = "10.18653/v1/N19-1421", pages = "4149--4158", archivePrefix = "arXiv", eprint = "1811.00937", primaryClass = "cs", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作