shamotskyi/ua_cbt

Name: shamotskyi/ua_cbt
Creator: shamotskyi
Published: 2024-04-26 19:35:37
License: 暂无描述

Hugging Face2024-04-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/shamotskyi/ua_cbt

下载链接

链接失效反馈

官方服务：

资源简介：

UA-CBT是一个受儿童图书测试启发的数据集，包含由机器生成并经人工校正的故事，故事中有空缺，并提供多个可能的选项来填充这些空缺。该数据集作为Eval-UA-tion基准的一部分发布，与原始数据集的不同之处在于使用乌克兰语，故事由大型语言模型生成并由人工修正，任务类型包括命名实体、普通名词和动词，且选项已根据正确答案进行语法屈折变化，以避免语法作为提示。故事被分为65%的上下文段和35%的挑战段（包含空缺）。

提供机构：

shamotskyi

原始信息汇总

数据集卡片 for UA-CBT (Eval-UA-tion 1.0)

数据集概述

UA-CBT 是一个受儿童图书测试（Childrens Book Test）启发的数据集，包含由机器生成（并经人工校正）的故事，其中有空白处和多个可能的填空选项。

数据集特点

语言： 乌克兰语
故事来源： 由大型语言模型生成，后经人工校正
任务类型： 包括命名实体（角色）、普通名词（如“谷物”）和动词（如“去”）
选项特点： 选项在语法上进行了变化，以匹配正确答案，避免语法作为提示
故事结构： 故事分为65%的上下文段和35%的挑战段（包含空白处）

数据集详情

数据集结构

data/train 是主要的数据集分割
data/humaneval 是其子集，目前正由人工评估以提供人类基准
fewshot... 是基于一个故事的子集，用于少样本指令，以避免给模型提供提示

数据集描述

语言(NLP)： 乌克兰语
许可证： CC-BY-NC-4.0

贡献者

Serhii Hamotskyi
Oleksii K.
Viacheslav Kravchenko
Daria Kravets
Anna-Izabella Levbarg
Lina Mykhailenko
Mariia Tkachenko
@arturius453

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，乌克兰儿童书籍测试数据集的构建体现了对语言模型评估的精细化追求。该数据集以机器生成结合人工校正的方式，从基础故事库中衍生出包含空缺的叙事文本，并针对空缺位置提供多个候选词汇选项。构建过程中，故事被划分为上下文段落与挑战段落，挑战段落内设置词汇空缺，且候选选项经过语法屈折变化处理，以确保评估聚焦于语义理解而非语法线索。这一方法借鉴了经典儿童书籍测试框架，同时融入了适应乌克兰语特性的创新设计。

使用方法

在应用层面，数据集支持多种配置以适应不同的评估场景。研究者可通过指定配置名称加载特定任务类型的数据，如命名实体或动词填空，亦可使用整合版本进行全面评估。数据集包含训练集与少量样本子集，后者适用于小样本学习或指令微调实验，避免模型从训练数据中获得提示。使用时应遵循CC-BY-NC-4.0许可协议，并参考提供的人类基线及随机基线，以科学评估语言模型在乌克兰语语境下的填空预测能力。

背景与挑战

背景概述

在自然语言处理领域，评估模型对上下文依赖和词汇推理的能力一直是核心研究议题。乌克兰儿童图书测试数据集（UA-CBT）作为Eval-UA-tion 1.0基准的重要组成部分，由Serhii Hamotskyi及安哈尔特应用技术大学的研究团队于2024年创建。该数据集受经典儿童图书测试启发，专注于乌克兰语的多项选择问答任务，通过大语言模型生成并经人工校正的故事文本，构建了包含命名实体、普通名词和动词三类填空任务的语料库。其设计旨在推动乌克兰语语言模型的评估与发展，为低资源语言的自然语言理解研究提供了关键工具。

当前挑战

UA-CBT数据集致力于解决乌克兰语语境下词汇推理与上下文理解的挑战，要求模型在长文本中准确预测缺失词汇，避免依赖语法线索。构建过程中面临多重困难：首先，乌克兰语作为低资源语言，缺乏高质量标注数据，需通过大语言模型生成与人工校正相结合的方式创建故事文本，确保语言自然性与文化适配性；其次，为消除语法提示，所有选项均需进行屈折变化以匹配正确答案，增加了数据标注的复杂度；此外，数据集采用65%上下文与35%挑战片段的分割策略，替代传统固定位置填空，对故事连贯性与任务设计提出了更高要求。

常用场景

经典使用场景

在自然语言处理领域，乌克兰儿童图书测试数据集（UA-CBT）为评估语言模型的上下文理解与词汇预测能力提供了经典场景。该数据集通过构建包含空缺的机器生成故事，要求模型从多个选项中选出恰当词汇填补空白，尤其侧重于常见名词、动词及命名实体的识别。这种设计模拟了人类阅读中的完形填空任务，能够有效检验模型对乌克兰语叙事结构的把握，以及其在长文本中捕捉语义关联的精度。

解决学术问题

UA-CBT数据集主要针对语言模型在低资源语言环境下的评估难题，为乌克兰语的自然语言理解研究填补了空白。它解决了传统评估基准中语法线索干扰问题，通过将选项进行语法屈折变化，迫使模型依赖深层语义而非表面形式进行选择。这一设计提升了评估的严谨性，为衡量模型在真实语言环境中的推理能力提供了可靠工具，推动了多语言NLP研究的均衡发展。

实际应用

在实际应用中，UA-CBT可作为乌克兰语教育技术与智能辅导系统的核心测试集，用于开发能够辅助语言学习的自适应工具。其故事填空形式可直接集成到阅读理解软件或语言学习平台中，帮助评估和提升机器对乌克兰语教材的解析能力。此外，该数据集也为乌克兰本土的搜索引擎、内容推荐系统及聊天机器人提供了语言理解模块的优化基准，促进本地化人工智能服务的质量提升。

数据集最近研究