five

shanearora/CaLMQA

收藏
Hugging Face2024-06-13 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/shanearora/CaLMQA
下载链接
链接失效反馈
官方服务:
资源简介:
CaLMQA是一个包含23种高资源到低资源语言的长形式问答(LFQA)数据集,包含2000个问题。问题分为文化特定问题和文化无关问题,文化特定问题是由特定文化背景的人提出的,而文化无关问题则是从英语翻译到其他语言的。数据集的结构包括语言、问题类型、问题、问题的英文翻译和答案。数据集的创建过程涉及从多个网站收集高资源到中资源语言的问题,以及通过众包工人编写低资源语言的问题。数据集的使用目的是评估最先进模型的多语言能力和文化知识。
提供机构:
shanearora
原始信息汇总

数据集概述

CaLMQA是一个长形式问答(LFQA)数据集,涵盖23种高资源到低资源语言。

数据集详情

数据集描述

CaLMQA包含23种语言的2000个问题,其中11种为高资源到中资源语言,12种为低资源语言。问题分为文化特定文化无关两种类型,用于评估最先进模型的多语言能力和文化知识。

语言分类

  • 高资源到中资源语言: 阿拉伯语、中文、英语、德语、印地语、希伯来语、匈牙利语、日语、韩语、俄语、西班牙语
  • 低资源语言: 阿法尔语、俾路支语、法罗语、斐济语、希利盖农语、基隆迪语、帕皮阿门托语、普什图语、萨摩亚语、汤加语、茨瓦纳语、沃洛夫语

许可证

MIT许可证

数据集结构

数据集包含以下字段:

  • language:问题的语言
  • question_type:问题的类型,分为文化特定或文化无关
  • question:问题的原文
  • question_english:问题的英文翻译
  • answer(可选):问题的答案

数据创建

源数据

  • 文化特定问题: 低资源语言的问题由雇佣的众包工作者手动编写。高资源到中资源语言的问题来自特定社区问答网站。
  • 文化无关问题: 所有文化无关问题从英语翻译而来,源数据来自Reddit ELI5。

数据收集和处理

  • 高资源到中资源语言: 通过调查收集社区问答网站,然后雇佣工作者从这些网站收集长形式的文化特定问题。
  • 低资源语言: 指导工作者编写文化特定问题。

源数据生产者

所有工作者均为所收集问题语言的母语者,并具备英语能力。工作者来自Prolific和UpWork平台。

个人和敏感信息

问题主题包括宗教、政治和历史,可能涉及敏感问题。在工作者指南中明确指出收集的问题不应具有争议性,并进行了人工审查。

偏见、风险和限制

从社区问答网站收集的问题可能反映这些社区的社会偏见,并可能未充分代表这些问答论坛中未涵盖的文化。工作者编写的问题可能带有工作者自身的偏见。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作