Patt/HellaSwag_TH_drop

Name: Patt/HellaSwag_TH_drop
Creator: Patt
Published: 2024-01-15 17:41:56
License: 暂无描述

Hugging Face2024-01-15 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Patt/HellaSwag_TH_drop

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是HellaSwag数据集的泰语翻译版本，使用了Google翻译和Multilingual Universal Sentence Encoder来计算泰语翻译的得分，并删除了得分低于0.5的行。数据集包含泰语和英语两种语言，特征包括索引、活动标签、上下文、结尾、来源ID、分割类型、标签以及各种得分。数据集分为训练集、验证集和测试集，并提供了每个分割的字节数和示例数。

提供机构：

Patt

原始信息汇总

数据集概述

数据集名称

HellaSwag_TH_drop

数据集特征

ind (int64)
activity_label (string)
activity_label_th (string)
ctx_a (string)
ctx_a_th (string)
ctx_b (string)
ctx_b_th (string)
ctx (string)
ctx_th (string)
endings (sequence: string)
endings_th (sequence: string)
source_id (string)
split (string)
split_type (string)
label (int64)
score_ctx_a (float64)
score_ctx (float64)
score_endings (float64)

数据集分割

train
- 数据量: 66295463 字节
- 示例数: 20027
validation
- 数据量: 17133944 字节
- 示例数: 5034
test
- 数据量: 16871175 字节
- 示例数: 5093

数据集大小

下载大小: 44164434 字节
数据集总大小: 100300582 字节

许可

cc-by-sa-4.0

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，跨语言理解任务对高质量双语数据集的需求日益增长。Patt/HellaSwag_TH_drop数据集基于经典常识推理基准HellaSwag构建，通过谷歌翻译引擎将原始英文文本转化为泰语版本。为确保翻译质量，研究团队引入多语言通用句子编码器对译文进行语义相似度评估，并依据原文与译文长度差异实施惩罚机制，最终剔除语义评分低于0.5的样本，形成精炼的双语平行语料库。

特点

该数据集呈现出鲜明的双语对照架构，每个样本均包含完整的英文原始文本与泰语翻译版本，涵盖活动标签、上下文叙述及多个候选结尾等结构化字段。其独特之处在于引入了三重量化评分体系，分别针对上下文片段与候选答案进行语义一致性度量，为研究跨语言语义表征提供了细粒度评估维度。数据集严格遵循训练集、验证集与测试集的标准化划分，确保模型评估的可靠性与可复现性。

使用方法

研究者可将本数据集应用于跨语言常识推理模型的训练与评估，通过对比分析双语文本的语义评分差异，深入探究语言迁移过程中的信息损耗现象。使用时可分别加载训练集、验证集与测试集配置，利用‘ctx_th’与‘endings_th’字段构建泰语语境下的完形填空任务，同时借助‘score_endings’等量化指标实现模型输出的自动评估。该数据集亦支持双语对齐研究，通过对比‘ctx’与‘ctx_th’的平行语料分析机器翻译的语义保真度。

背景与挑战

背景概述

在自然语言处理领域，常识推理是衡量模型智能水平的关键任务之一。HellaSwag数据集于2019年由艾伦人工智能研究所等机构的研究人员创建，旨在评估模型在复杂情境下的常识推理能力，其核心研究问题聚焦于模型对日常事件逻辑延续的预测准确性。该数据集通过构建大量基于活动标签的上下文与结局选项，推动了语言模型在推理任务上的性能基准提升。Patt/HellaSwag_TH_drop作为其泰语翻译版本，由Triamamornwooth Patteera于2023年发布，不仅扩展了多语言推理资源的覆盖范围，还通过引入翻译质量评分机制，为低资源语言环境下的模型评估提供了重要支持，促进了跨语言人工智能研究的发展。

当前挑战

该数据集所解决的领域问题在于多语言常识推理，其核心挑战在于如何确保翻译后的文本在保持原文语义连贯性的同时，适应目标语言的文化与表达习惯。具体而言，泰语与英语在句法结构和词汇内涵上存在显著差异，直接机械翻译可能导致逻辑断层或常识失真，从而影响模型评估的可靠性。在构建过程中，研究团队面临翻译质量量化评估的难题，他们采用多语言通用句子编码器计算翻译得分，并依据原文与译文长度比实施惩罚机制，但得分阈值设定与噪声数据过滤仍需精细权衡，以避免有价值样本的过度丢失，这体现了低资源语言数据处理中平衡质量与规模的普遍困境。

常用场景

经典使用场景

在自然语言处理领域，多语言常识推理任务对模型理解跨文化语境提出了严峻挑战。Patt/HellaSwag_TH_drop数据集通过提供泰语与英语双语的上下文补全样本，为研究者构建了一个评估模型跨语言推理能力的基准平台。该数据集典型应用于训练和测试多语言预训练模型在泰语语境下的常识推理性能，特别是在处理日常活动描述时模型对合理结局的判别能力。

衍生相关工作

基于该数据集的跨语言特性，研究者开发了多语言BERT的泰语适配变体，显著提升了模型在东南亚语言任务上的表现。其质量评估机制被后续泰语数据集构建工作广泛借鉴，如ThaiNLI数据集的生成流程。该资源还催生了针对泰语语法特性的推理模型架构研究，为低资源语言理解技术栈提供了关键组成部分。

数据集最近研究