SIKO

Hugging Face2024-07-10 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/grayapple/SIKO

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为了研究目的而创建的，旨在反映韩语在语言模型中的句法特征。它基于KLUE-benchmark数据集，并遵循KLUE-benchmark的许可条款。数据集包括多种处理方法，如语义保留和非语义保留的词序变化，以及词尾标记删除。这些数据用于文本分类和自然语言推理任务。数据集的详细描述包括作者、类型、全局唯一标识符、黄金标签等信息，以及不同类型的数据，如普通数据、语义保留和非语义保留的词序变化数据，以及词尾标记删除的数据。

创建时间：

2024-07-10

原始信息汇总

数据集描述

该数据集是为研究目的创建的，旨在反映韩语在语言模型中的句法特征。它基于KLUE-benchmark数据集，并遵守KLUE-benchmark的许可条款。

处理细节和生成方法

语义保留的词序变化

改变词序同时保持句子意义。
初始草案由Chat GPT-3.5创建，并由三位注释者审核。
为文本分类构建了24.9k数据，为自然语言推理（NLI）构建了30k数据。

非语义保留的词序变化

改变词序而不保留句子意义。
使用Python的random.shuffle库生成。

格标记删除

从句子中删除格标记。
使用SKT的形态分析器生成。

混合数据

语义保留的词序变化 + 格标记删除
非语义保留的词序变化 + 格标记删除

数据集描述

字段	信息	字段	信息
author	来自KLUE的值	-	-
genre	来自KLUE的值	-	-
guid	来自KLUE的值	-	-
gold_label	来自KLUE的值	-	-
label2	来自KLUE的值	-	-
label3	来自KLUE的值	-	-
label4	来自KLUE的值	-	-
label5	来自KLUE的值	-	-
premise	来自KLUE的值	-	-
hypothesis	来自KLUE的值	-	-
SIKO_data	SIKO_data	ordinary_data	由普通韩语母语者生成的数据
		semantic_non_preserve_shuffle_data	语义非保留的词序变化数据
		semantic_preserve_shuffle_data	语义保留的词序变化数据
		ordinary_casemarker_del_data	删除格标记的普通数据
		semantic_non_preserve_shuffle_casemarker_del_data	删除格标记的语义非保留词序变化数据
		semantic_preserve_shuffle_casemarker_del_data	删除格标记的语义保留词序变化数据

数据示例

SIKO-NLI

json { "guid": "klue-nli-v1_train_00000", "genre": "NSMC", "premise": "힛걸 진심 최고다 그 어떤 히어로보다 멋지다", "hypothesis": "힛걸 진심 최고로 멋지다.", "gold_label": "entailment", "author": "entailment", "label2": "entailment", "label3": "entailment", "label4": "entailment", "label5": "entailment", "SIKO_data": { "ordinary_data": { "premise": "힛걸 진심 최고다 그 어떤 히어로보다 멋지다", "hypothesis": "힛걸 진심 최고로 멋지다." }, "semantic_non_preserve_shuffle_data": { "premise": "그 히어로보다 멋지다 어떤 힛걸 진심 최고다", "hypothesis": "진심 멋지다. 힛걸 최고로" }, "semantic_preserve_shuffle_data": { "premise": "진심 힛걸 최고다 그 어떤 히어로보다 멋지다", "hypothesis": "진심 최고로 멋지다. 힛걸", "annotator": "PNK" }, "ordinary_casemarker_del_data": { "premise": "힛걸 진심 최고다 그 어떤 히어로 멋지다", "hypothesis": "힛걸 진심 최고 멋지다." }, "semantic_non_preserve_shuffle_casemarker_del_data": { "premise": "그 히어로 멋지다 어떤 힛걸 진심 최고다", "hypothesis": "진심 멋지다. 힛걸 최고" }, "semantic_preserve_shuffle_casemarker_del_data": { "premise": "진심 힛걸 최고다 그 어떤 히어로 멋지다", "hypothesis": "진심 최고 멋지다. 힛걸" } } }

SIKO-TC

json { "guid": "ynat-v1_train_00000", "title": "유튜브 내달 2일까지 크리에이터 지원 공간 운영", "predefined_news_category": "IT과학", "label": "생활문화", "annotations": { "annotators": ["08", "13", "07"], "annotations": { "first-scope": ["생활문화", "생활문화", "IT과학"], "second-scope": ["IT과학", "해당없음", "해당없음"], "third-scope": ["해당없음", "해당없음", "해당없음"] } }, "url": "https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=105&sid2=227&oid=001&aid=0008508947", "date": "2016.06.30. 오전 10:36", "SIKO_data": { "ordinary_data": { "title": "유튜브 내달 2일까지 크리에이터 지원 공간 운영" }, "semantic_non_preserve_shuffle_data": { "title": "내달 운영 유튜브 2일까지 지원 크리에이터 공간" }, "semantic_preserve_shuffle_data": { "title": "내달 2일까지 유튜브 크리에이터 지원 공간 운영", "annotator": "CSA" }, "ordinary_casemarker_del_data": { "title": "유튜브 내달 2일까지 크리에이터 지원 공간 운영" }, "semantic_non_preserve_shuffle_casemarker_del_data": { "title": "내달 운영 유튜브 2일까지 지원 크리에이터 공간" }, "semantic_preserve_shuffle_casemarker_del_data": { "title": "내달 2일까지 유튜브 크리에이터 지원 공간 운영" } } }

搜集汇总

数据集介绍

构建方式

SIKO数据集的构建基于KLUE基准数据集，旨在反映韩语句法特征在语言模型中的表现。通过语义保持的词序变换、非语义保持的词序变换以及格标记删除等多种方式生成数据。语义保持的词序变换通过Chat GPT-3.5生成初稿，并由三位标注者进行审核；非语义保持的词序变换则使用Python的random.shuffle库随机打乱词序；格标记删除则借助SKT的形态分析器完成。最终，数据集结合了多种变换方式，生成了丰富的文本分类和自然语言推理数据。

使用方法

SIKO数据集适用于韩语自然语言处理任务，尤其是文本分类和自然语言推理。研究者可以通过加载数据集，直接访问原始数据及其经过多种变换后的版本，进行模型训练和评估。数据集中的每个样本都包含详细的元数据信息，便于进行任务特定的分析和实验。此外，数据集的多样化生成方式为研究者提供了丰富的实验场景，能够有效评估模型在不同语言处理操作下的表现。

背景与挑战

背景概述

SIKO数据集是为研究韩语句法特征在语言模型中的表现而创建的，基于KLUE基准数据集，并遵循其许可条款。该数据集由研究人员利用Chat GPT-3.5生成初稿，并由三位注释者进行审阅，最终构建了24.9k条文本分类数据和30k条自然语言推理（NLI）数据。SIKO数据集通过语义保持的词序变化、非语义保持的词序变化以及格标记删除等多种方式，丰富了韩语语言模型的训练数据，旨在提升模型对韩语句法结构的理解和生成能力。

当前挑战

SIKO数据集在构建过程中面临多重挑战。首先，语义保持的词序变化要求在不改变句子意义的前提下调整词序，这对注释者的语言理解能力提出了较高要求。其次，非语义保持的词序变化虽然通过随机打乱词序实现，但如何确保打乱后的句子仍具有一定的语法合理性，也是一个技术难点。此外，格标记删除操作需要依赖SKT的形态分析器，如何准确识别并删除格标记而不影响句子的整体结构，同样是一个复杂的问题。这些挑战不仅考验了数据集的构建技术，也对后续模型训练的效果产生了直接影响。

常用场景

经典使用场景

SIKO数据集在自然语言处理领域中被广泛应用于韩语句法特性的研究。通过语义保持和非语义保持的词序变化以及格标记删除等操作，该数据集为语言模型提供了丰富的训练数据，帮助研究者深入理解韩语句法结构对语义理解的影响。特别是在文本分类和自然语言推理任务中，SIKO数据集为模型提供了多样化的句法变体，增强了模型对韩语句法的鲁棒性。

解决学术问题

SIKO数据集解决了韩语自然语言处理中的句法多样性问题。通过生成语义保持和非语义保持的词序变化数据，研究者能够评估语言模型在不同句法结构下的表现，进而优化模型对韩语句法的理解能力。此外，格标记删除操作帮助研究者探索格标记在韩语句子中的重要性，为韩语语法研究提供了新的视角。

实际应用

在实际应用中，SIKO数据集被用于提升韩语文本分类和自然语言推理系统的性能。例如，在新闻分类任务中，模型通过训练SIKO数据集中的多样化句法变体，能够更准确地识别不同类别的新闻内容。此外，该数据集还被用于开发韩语智能助手和机器翻译系统，帮助这些系统更好地处理复杂的韩语句法结构。

数据集最近研究