rifkiaputri/id-csqa

Name: rifkiaputri/id-csqa
Creator: rifkiaputri
Published: 2024-06-25 08:52:33
License: 暂无描述

Hugging Face2024-06-25 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/rifkiaputri/id-csqa

下载链接

链接失效反馈

官方服务：

资源简介：

ID-CSQA数据集主要研究使用LLM生成与文化相关的常识问答数据集的有效性，特别是针对印尼语和巽他语。数据集包含三种生成方法：自动数据适应、手动数据生成和自动数据生成。数据集结构包括多个配置，如LLM_Adapt、Human_Gen和LLM_Gen，每个数据项通常包含一个多项选择题及其选项和正确答案。Human_Gen数据集还提供了更多元数据，如答案不确定性、问题模糊性、选项模糊性和解释。此外，LLM_Adapt和LLM_Gen数据还提供了经过人工清理的子集。

提供机构：

rifkiaputri

原始信息汇总

ID-CSQA 数据集概述

数据集描述

ID-CSQA 数据集包含三个主要配置：human_gen、llm_adapt 和 llm_gen。每个配置包含不同的特征和数据分割。

配置详情

1. `human_gen`

特征:
- id: 字符串类型
- category: 字符串类型
- question_concept: 字符串类型
- question: 字符串类型
- choices: 结构体，包含 label 和 text，均为字符串序列
- answer_creator: 字符串类型
- answer_majority: 字符串类型
- answers: 结构体，包含 W1 到 W6，均为字符串类型
- answers_uncertainty: 结构体，包含 W1 到 W6，均为字符串类型
- question_ambiguity: 结构体，包含 W1 到 W6，均为字符串类型
- option_ambiguity: 结构体，包含 W1 到 W6，均为字符串序列
- reason: 结构体，包含 W1 到 W6，均为字符串类型
分割:
- test: 1498 个样本，1081568 字节
下载大小: 262640 字节
数据集大小: 1081568 字节

2. `llm_adapt`

特征:
- id: 字符串类型
- question_concept: 字符串类型
- question: 字符串类型
- choices: 结构体，包含 label 和 text，均为字符串序列
- answer_creator: 字符串类型
分割:
- train: 1506 个样本，419633 字节
- validation: 191 个样本，52960 字节
- test: 158 个样本，45512 字节
- test_clean: 158 个样本，45339 字节
下载大小: 305459 字节
数据集大小: 563444 字节

3. `llm_gen`

特征:
- id: 字符串类型
- category: 字符串类型
- question_concept: 字符串类型
- question: 字符串类型
- choices: 结构体，包含 label 和 text，均为字符串序列
- answer_creator: 字符串类型
分割:
- test: 1063 个样本，331624 字节
- test_clean: 300 个样本，90553 字节
下载大小: 206847 字节
数据集大小: 422177 字节

数据文件路径

human_gen: human_gen/test-*
llm_adapt: llm_adapt/train-*, llm_adapt/validation-*, llm_adapt/test-*, llm_adapt/test_clean-*
llm_gen: llm_gen/test-*, llm_gen/test_clean-*

许可证

Creative Commons Non-Commercial (CC BY-NC 4.0)

任务类别

问答

语言

印尼语

数据集大小类别

1K<n<10K

搜集汇总

数据集介绍

构建方式

在跨语言常识推理研究领域，构建高质量数据集是评估模型文化适应性的基石。ID-CSQA数据集的构建采用了三种互补的方法：自动数据适配、人工手动生成以及自动数据生成。自动数据适配通过大语言模型将现有英语常识问答数据转化为印尼语版本；人工生成则由熟悉当地文化的标注者精心设计问题，确保文化相关性；自动生成则完全依赖大语言模型创造新的问答对。每种方法均针对不同研究目标，共同构成了这一多层次、多来源的数据资源。

使用方法

研究者可通过HuggingFace数据集库直接加载ID-CSQA，依据不同配置选择相应数据分割进行实验。对于模型训练与调优，可优先使用LLM_Adapt配置中的训练集与验证集；若要评估模型在人工精心标注数据上的表现，则Human_Gen的测试集是关键基准；而LLM_Gen及其清洗后的test_clean子集适用于分析大语言模型生成数据的质量。使用时应遵循CC BY-NC 4.0许可协议，并注意数据标注者主要来自爪哇岛和巴厘岛可能带来的地域视角影响。

背景与挑战

背景概述

在自然语言处理领域，跨文化常识推理是评估模型认知能力的关键任务，而高质量多语言数据集的稀缺制约了相关研究的发展。ID-CSQA数据集由Rifki Afina Putri等研究人员于2024年创建，旨在探索大语言模型生成印尼语及巽他语文化相关常识问答数据的可行性。该数据集通过人工生成、自动适配与自动生成三种方法构建，涵盖了印尼社会文化背景下的常识推理问题，为低资源语言的认知智能研究提供了重要基准。

当前挑战

该数据集致力于解决跨文化常识问答的挑战，其核心在于捕捉语言特有的文化背景与社会共识，这对模型的深层语义理解提出了更高要求。在构建过程中，研究人员面临标注者地域分布集中导致的潜在文化偏差，需通过人工筛选机制消除有害或刻板印象内容。同时，自动生成数据需经过人工清洗以确保质量，而多标注者答案的不确定性及问题歧义性标注也增加了数据一致性与可靠性的维护难度。

常用场景

经典使用场景

在自然语言处理领域，ID-CSQA数据集为印尼语常识问答任务提供了关键资源。该数据集通过人工生成与大型语言模型生成两种方式构建，涵盖了丰富的文化相关常识问题，常用于评估和训练跨语言问答模型。研究者利用其多选问答结构，能够系统检验模型对印尼社会文化背景的理解能力，尤其在处理涉及本土习俗、日常情境的推理任务时展现出独特价值。

解决学术问题

该数据集有效解决了低资源语言文化常识数据匮乏的学术难题。通过提供人工标注的黄金标准数据与LLM生成数据的对比框架，使研究者能够量化分析生成式模型在跨文化语境中的适应性局限。其标注的答案不确定性、问题模糊性等元数据，为研究多义性理解和标注一致性提供了实证基础，推动了跨语言常识推理领域的评估方法论发展。

实际应用

在实际应用层面，ID-CSQA可作为印尼语智能助手的核心训练数据，提升对话系统对本土文化语境的理解精度。教育科技领域可借助该数据集开发适应性语言学习工具，通过文化相关的常识问题增强学习者的语境化认知。此外，本地化内容审核系统也能利用其文化敏感性标注机制，识别并处理具有地域特质的语义歧义内容。

数据集最近研究