projecte-aina/siqa_ca

Name: projecte-aina/siqa_ca
Creator: projecte-aina
Published: 2026-04-27 08:59:53
License: 暂无描述

Hugging Face2026-04-27 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/projecte-aina/siqa_ca

下载链接

链接失效反馈

官方服务：

资源简介：

siqa_ca（社交互动问答 - 加泰罗尼亚语）是一个加泰罗尼亚语的多项选择问答数据集，旨在通过基于对人们行为及其社会影响的推理的多项选择问答实例来评估社交常识智能。该数据集包含验证分割中的1954个实例。每个实例描述一个社交情境，提出基于该情境的问题，并提供三个可能的解决方案，以及指示哪个解决方案最合理的标签。数据集由语言技术单位 | BSC-CNS 策划，由Projecte AINA资助，使用加泰罗尼亚语，采用CC-BY 4.0许可证。数据格式为JSONL，每行包含context（描述社交情境的文本）、question（相关问题）、answerA、answerB、answerC（三个备选答案）和label（正确答案的整数标签，1对应answerA，2对应answerB，3对应answerC）。数据集基于SIQA（Social IQa）验证集专业翻译而来，翻译过程遵循特定指南以确保语言风格和逻辑一致性。

SIQA_ca (Social Interaction QA - Catalan) is a Catalan multiple-choice question answering (QA) dataset designed to evaluate social commonsense intelligence via multiple-choice QA instances that involve reasoning about human behaviors and their social impacts. This dataset contains 1,954 instances in its validation split. Each instance describes a social scenario, poses a question based on that scenario, provides three potential solutions, and includes a label indicating the most reasonable solution. This dataset was curated by the Language Technologies Unit | BSC-CNS, funded by Projecte AINA, developed in Catalan, and released under the CC-BY 4.0 license. The data format is JSONL, where each line contains context (text describing the social scenario), question (relevant query), answerA, answerB, answerC (three alternative answers), and label (an integer label for the correct answer, where 1 corresponds to answerA, 2 corresponds to answerB, and 3 corresponds to answerC). This dataset is professionally translated from the SIQA (Social IQa) validation set, with the translation process adhering to specific guidelines to ensure consistent linguistic style and logical consistency.

提供机构：

projecte-aina

原始信息汇总

数据集卡片 for siqa_ca

数据集概述

siqa_ca 是一个加泰罗尼亚语的多项选择问答数据集，由英文的 SIQA 验证集专业翻译而来。

数据集详情

数据集描述

siqa_ca（Social Interaction Question Answering - Catalan）旨在通过基于对人们行为及其社会影响的推理的多项选择问答实例来评估社会常识智能。它包含 1954 个实例在验证分割中。每个实例描述一个情况，基于该情况提出一个问题，并提供三个可能的解决方案，以及指示哪个解决方案最合理的标签。

语言(NLP): 加泰罗尼亚语
许可证: CC-BY 4.0

数据集结构

数据集以 JSONL 格式提供，每行对应一个描述社会情况的问答实例，包括上下文、相关问题和三个可能的解决方案，以及正确解决方案的标签。每行包含以下字段：

context: 描述社会情况的文本字符串。
question: 关于 context 的文本字符串问题。
answerA: 对 question 的替代答案的文本字符串。
answerB: 对 question 的另一个替代答案的文本字符串。
answerC: 对 question 的另一个替代答案的文本字符串。
label: 表示正确解决方案的整数，1 表示 answerA，2 表示 answerB，3 表示 answerC。

例如：

json { "context": "La Trini no va anar a casa aquella nit i va resistir els atacs de la Rosa.", "question": "Què va haver de fer la Trini abans daixò?", "answerA": "Buscar un altre pla.", "answerB": "Anar a casa i veure la Rosa.", "answerC": "Trobar un lloc on anar.", "label": "3" }

siqa_ca 包含来自 SIQA 数据集的验证分割。

指标	验证集
实例数	1954
平均行长度（单词）	36
平均行长度（字符）	198

数据集创建

数据收集和处理

验证分割来自 SIQA 数据集。

翻译过程遵循以下准则：

日期和单位转换: 适应日期、度量系统、货币等，除非任务涉及度量系统转换。
人名: 将具有明确加泰罗尼亚语等效项的英文名字翻译；否则，使用我们上下文中的常见名字。在整个文本中保持翻译名字的一致性。不翻译个别人物的名字。
语言风格: 避免翻译中的统一性，保持丰富多样的语言，反映我们的语言深度。在避免单调性的同时保持精确性和术语。
数据集逻辑: 确保数据集的内部逻辑得到维护；答案应保持相关和准确。事实准确性是问答数据集的关键。在多项选择数据集中保持正确的选项。
错误处理: 在翻译过程中修正英文文本中的错误，除非特定数据集另有规定。加泰罗尼亚语中的拼写错误必须纠正。
避免模式和保持长度: 避免包含可能提示正确选项的模式，保持难度。尽可能匹配响应的长度与原始文本的长度。仔细处理特定术语以确保一致性。

数据源生产者

siqa_ca 是 SIQA 数据集的专业翻译，由一群母语为加泰罗尼亚语的翻译人员完成。翻译人员提供了原始验证分割、一组翻译偏好和指南，以及对原始语料库的简要解释。为了确保持续沟通，翻译人员被要求在 50、500 和 1000 个示例的间隔内提供样本翻译。这些翻译由我们团队中的加泰罗尼亚语母语者进行审查。此外，鼓励翻译人员在有任何具体疑问时寻求澄清，并在整个数据集中应用任何必要的更正。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，构建高质量的多语言数据集对于评估模型的社会常识推理能力至关重要。siqa_ca数据集的构建源于对英语SIQA验证集的专业翻译，该过程严格遵循一系列细致的本地化准则。翻译团队由加泰罗尼亚语母语者组成，他们在处理日期、单位、人名时进行了文化适配，同时确保语言风格的丰富性与术语的一致性。为确保翻译质量，团队在翻译过程中定期提交样本供审核，并对整个数据集进行了统一的错误修正与逻辑校验，从而精准地保留了原始数据的社会情境与问题结构。

特点

作为专注于社会常识推理的加泰罗尼亚语数据集，siqa_ca具备鲜明的语言学与任务导向特征。数据集包含1954个验证实例，每个实例均以自然语言描述一个社交情境，并围绕该情境提出一个问题，同时提供三个备选答案。其核心特点在于要求模型不仅理解文本表面含义，还需深入推理人物的行为动机与社会影响。数据格式采用JSONL结构，字段清晰，涵盖情境描述、问题及多个答案选项，便于直接用于多项选择问答任务的评估。

使用方法

该数据集主要用于评估语言模型在社会常识推理方面的性能。研究人员可直接将其作为基准测试工具，通过加载JSONL文件，提取情境、问题及备选答案，并依据标签验证模型预测的准确性。典型应用场景包括多项选择题回答、阅读理解评估以及常识推理能力分析。需特别注意，数据集明确禁止用于模型训练，其验证文件中嵌入了特定的GUID字符串，以便于从训练语料中识别与移除，确保评估的公正性与独立性。

背景与挑战

背景概述

在自然语言处理领域，社会常识推理是评估人工智能模型理解人类互动深层含义的关键任务。siqa_ca数据集由巴塞罗那超级计算中心语言技术部门在Projecte AINA项目资助下创建，其核心研究问题聚焦于模型对社会情境中人类行为及其隐含社会影响的推理能力。该数据集基于2019年发布的英文SIQA验证集，通过专业翻译转化为加泰罗尼亚语版本，包含1954个多项选择题实例，每个实例通过情境描述、关联问题及三个备选答案构成，旨在推动低资源语言在复杂推理任务中的模型评估与发展。

当前挑战

该数据集致力于解决社会常识推理领域的核心挑战，即如何让模型超越表层语言理解，准确捕捉人类互动中的意图、情感与社会规范等隐含知识。在构建过程中，翻译团队面临跨语言文化适配的难题，需在保持原文逻辑严谨性的同时，将日期、度量衡、人名等元素自然转化为加泰罗尼亚语语境，并避免翻译模式泄露答案线索。此外，确保多项选择题的选项长度、术语一致性及事实准确性，同时维持语言风格的丰富性与多样性，亦是构建过程中的关键挑战。

常用场景

经典使用场景

在自然语言处理领域，社会常识推理是衡量模型智能水平的关键维度。siqa_ca数据集作为加泰罗尼亚语的社会互动问答资源，其经典应用场景在于评估语言模型对社会情境的理解与推理能力。该数据集通过呈现日常社交场景，要求模型从多个选项中识别最合理的行动方案，从而检验模型对隐含社会规范、情感动机及因果关系的把握。这种评估方式不仅推动了多语言模型在常识推理任务上的进步，也为跨语言迁移学习提供了重要基准。

解决学术问题

社会常识推理长期以来是人工智能研究的难点，传统模型往往难以捕捉人类社交互动中的微妙逻辑。siqa_ca数据集通过专业翻译的加泰罗尼亚语版本，有效解决了低资源语言在社交推理任务上的数据稀缺问题。该数据集使研究者能够系统探究语言模型对社会情境的泛化能力，特别是在跨语言环境下模型对文化特定常识的适应性。其构建促进了多语言NLP技术的发展，为公平评估不同语言模型的认知水平提供了标准化工具。

衍生相关工作

围绕siqa_ca数据集，学术界已衍生出多项经典研究工作。这些工作主要集中于跨语言常识推理模型的比较分析，以及多语言预训练模型在社会互动任务上的微调策略。部分研究利用该数据集探讨了翻译质量对模型性能的影响，为低资源语言数据增强提供了方法论参考。此外，基于该数据集构建的评估基准也催生了针对加泰罗尼亚语的特化模型开发，推动了区域性语言技术在NLP领域的创新发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集