projecte-aina/siqa_ca
收藏数据集卡片 for siqa_ca
数据集概述
siqa_ca 是一个加泰罗尼亚语的多项选择问答数据集,由英文的 SIQA 验证集专业翻译而来。
数据集详情
数据集描述
siqa_ca(Social Interaction Question Answering - Catalan)旨在通过基于对人们行为及其社会影响的推理的多项选择问答实例来评估社会常识智能。它包含 1954 个实例在验证分割中。每个实例描述一个情况,基于该情况提出一个问题,并提供三个可能的解决方案,以及指示哪个解决方案最合理的标签。
- 语言(NLP): 加泰罗尼亚语
- 许可证: CC-BY 4.0
数据集结构
数据集以 JSONL 格式提供,每行对应一个描述社会情况的问答实例,包括上下文、相关问题和三个可能的解决方案,以及正确解决方案的标签。每行包含以下字段:
context: 描述社会情况的文本字符串。question: 关于context的文本字符串问题。answerA: 对question的替代答案的文本字符串。answerB: 对question的另一个替代答案的文本字符串。answerC: 对question的另一个替代答案的文本字符串。label: 表示正确解决方案的整数,1 表示answerA,2 表示answerB,3 表示answerC。
例如:
json { "context": "La Trini no va anar a casa aquella nit i va resistir els atacs de la Rosa.", "question": "Què va haver de fer la Trini abans daixò?", "answerA": "Buscar un altre pla.", "answerB": "Anar a casa i veure la Rosa.", "answerC": "Trobar un lloc on anar.", "label": "3" }
siqa_ca 包含来自 SIQA 数据集 的验证分割。
| 指标 | 验证集 |
|---|---|
| 实例数 | 1954 |
| 平均行长度(单词) | 36 |
| 平均行长度(字符) | 198 |
数据集创建
数据收集和处理
验证分割来自 SIQA 数据集。
翻译过程遵循以下准则:
- 日期和单位转换: 适应日期、度量系统、货币等,除非任务涉及度量系统转换。
- 人名: 将具有明确加泰罗尼亚语等效项的英文名字翻译;否则,使用我们上下文中的常见名字。在整个文本中保持翻译名字的一致性。不翻译个别人物的名字。
- 语言风格: 避免翻译中的统一性,保持丰富多样的语言,反映我们的语言深度。在避免单调性的同时保持精确性和术语。
- 数据集逻辑: 确保数据集的内部逻辑得到维护;答案应保持相关和准确。事实准确性是问答数据集的关键。在多项选择数据集中保持正确的选项。
- 错误处理: 在翻译过程中修正英文文本中的错误,除非特定数据集另有规定。加泰罗尼亚语中的拼写错误必须纠正。
- 避免模式和保持长度: 避免包含可能提示正确选项的模式,保持难度。尽可能匹配响应的长度与原始文本的长度。仔细处理特定术语以确保一致性。
数据源生产者
siqa_ca 是 SIQA 数据集 的专业翻译,由一群母语为加泰罗尼亚语的翻译人员完成。翻译人员提供了原始验证分割、一组翻译偏好和指南,以及对原始语料库的简要解释。为了确保持续沟通,翻译人员被要求在 50、500 和 1000 个示例的间隔内提供样本翻译。这些翻译由我们团队中的加泰罗尼亚语母语者进行审查。此外,鼓励翻译人员在有任何具体疑问时寻求澄清,并在整个数据集中应用任何必要的更正。




