five

SIKO

收藏
Hugging Face2024-07-10 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/grayapple/SIKO
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是为了研究目的而创建的,旨在反映韩语在语言模型中的句法特征。它基于KLUE-benchmark数据集,并遵循KLUE-benchmark的许可条款。数据集包括多种处理方法,如语义保留和非语义保留的词序变化,以及词尾标记删除。这些数据用于文本分类和自然语言推理任务。数据集的详细描述包括作者、类型、全局唯一标识符、黄金标签等信息,以及不同类型的数据,如普通数据、语义保留和非语义保留的词序变化数据,以及词尾标记删除的数据。
创建时间:
2024-07-10
原始信息汇总

数据集描述

该数据集是为研究目的创建的,旨在反映韩语在语言模型中的句法特征。它基于KLUE-benchmark数据集,并遵守KLUE-benchmark的许可条款。

处理细节和生成方法

语义保留的词序变化

  • 改变词序同时保持句子意义。
  • 初始草案由Chat GPT-3.5创建,并由三位注释者审核。
  • 为文本分类构建了24.9k数据,为自然语言推理(NLI)构建了30k数据。

非语义保留的词序变化

  • 改变词序而不保留句子意义。
  • 使用Python的random.shuffle库生成。

格标记删除

  • 从句子中删除格标记。
  • 使用SKT的形态分析器生成。

混合数据

  • 语义保留的词序变化 + 格标记删除
  • 非语义保留的词序变化 + 格标记删除

数据集描述

字段 信息 字段 信息
author 来自KLUE的值 - -
genre 来自KLUE的值 - -
guid 来自KLUE的值 - -
gold_label 来自KLUE的值 - -
label2 来自KLUE的值 - -
label3 来自KLUE的值 - -
label4 来自KLUE的值 - -
label5 来自KLUE的值 - -
premise 来自KLUE的值 - -
hypothesis 来自KLUE的值 - -
SIKO_data SIKO_data ordinary_data 由普通韩语母语者生成的数据
semantic_non_preserve_shuffle_data 语义非保留的词序变化数据
semantic_preserve_shuffle_data 语义保留的词序变化数据
ordinary_casemarker_del_data 删除格标记的普通数据
semantic_non_preserve_shuffle_casemarker_del_data 删除格标记的语义非保留词序变化数据
semantic_preserve_shuffle_casemarker_del_data 删除格标记的语义保留词序变化数据

数据示例

SIKO-NLI

json { "guid": "klue-nli-v1_train_00000", "genre": "NSMC", "premise": "힛걸 진심 최고다 그 어떤 히어로보다 멋지다", "hypothesis": "힛걸 진심 최고로 멋지다.", "gold_label": "entailment", "author": "entailment", "label2": "entailment", "label3": "entailment", "label4": "entailment", "label5": "entailment", "SIKO_data": { "ordinary_data": { "premise": "힛걸 진심 최고다 그 어떤 히어로보다 멋지다", "hypothesis": "힛걸 진심 최고로 멋지다." }, "semantic_non_preserve_shuffle_data": { "premise": "그 히어로보다 멋지다 어떤 힛걸 진심 최고다", "hypothesis": "진심 멋지다. 힛걸 최고로" }, "semantic_preserve_shuffle_data": { "premise": "진심 힛걸 최고다 그 어떤 히어로보다 멋지다", "hypothesis": "진심 최고로 멋지다. 힛걸", "annotator": "PNK" }, "ordinary_casemarker_del_data": { "premise": "힛걸 진심 최고다 그 어떤 히어로 멋지다", "hypothesis": "힛걸 진심 최고 멋지다." }, "semantic_non_preserve_shuffle_casemarker_del_data": { "premise": "그 히어로 멋지다 어떤 힛걸 진심 최고다", "hypothesis": "진심 멋지다. 힛걸 최고" }, "semantic_preserve_shuffle_casemarker_del_data": { "premise": "진심 힛걸 최고다 그 어떤 히어로 멋지다", "hypothesis": "진심 최고 멋지다. 힛걸" } } }

SIKO-TC

json { "guid": "ynat-v1_train_00000", "title": "유튜브 내달 2일까지 크리에이터 지원 공간 운영", "predefined_news_category": "IT과학", "label": "생활문화", "annotations": { "annotators": ["08", "13", "07"], "annotations": { "first-scope": ["생활문화", "생활문화", "IT과학"], "second-scope": ["IT과학", "해당없음", "해당없음"], "third-scope": ["해당없음", "해당없음", "해당없음"] } }, "url": "https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=105&sid2=227&oid=001&aid=0008508947", "date": "2016.06.30. 오전 10:36", "SIKO_data": { "ordinary_data": { "title": "유튜브 내달 2일까지 크리에이터 지원 공간 운영" }, "semantic_non_preserve_shuffle_data": { "title": "내달 운영 유튜브 2일까지 지원 크리에이터 공간" }, "semantic_preserve_shuffle_data": { "title": "내달 2일까지 유튜브 크리에이터 지원 공간 운영", "annotator": "CSA" }, "ordinary_casemarker_del_data": { "title": "유튜브 내달 2일까지 크리에이터 지원 공간 운영" }, "semantic_non_preserve_shuffle_casemarker_del_data": { "title": "내달 운영 유튜브 2일까지 지원 크리에이터 공간" }, "semantic_preserve_shuffle_casemarker_del_data": { "title": "내달 2일까지 유튜브 크리에이터 지원 공간 운영" } } }

搜集汇总
数据集介绍
main_image_url
构建方式
SIKO数据集的构建基于KLUE基准数据集,旨在反映韩语句法特征在语言模型中的表现。通过语义保持的词序变换、非语义保持的词序变换以及格标记删除等多种方式生成数据。语义保持的词序变换通过Chat GPT-3.5生成初稿,并由三位标注者进行审核;非语义保持的词序变换则使用Python的random.shuffle库随机打乱词序;格标记删除则借助SKT的形态分析器完成。最终,数据集结合了多种变换方式,生成了丰富的文本分类和自然语言推理数据。
使用方法
SIKO数据集适用于韩语自然语言处理任务,尤其是文本分类和自然语言推理。研究者可以通过加载数据集,直接访问原始数据及其经过多种变换后的版本,进行模型训练和评估。数据集中的每个样本都包含详细的元数据信息,便于进行任务特定的分析和实验。此外,数据集的多样化生成方式为研究者提供了丰富的实验场景,能够有效评估模型在不同语言处理操作下的表现。
背景与挑战
背景概述
SIKO数据集是为研究韩语句法特征在语言模型中的表现而创建的,基于KLUE基准数据集,并遵循其许可条款。该数据集由研究人员利用Chat GPT-3.5生成初稿,并由三位注释者进行审阅,最终构建了24.9k条文本分类数据和30k条自然语言推理(NLI)数据。SIKO数据集通过语义保持的词序变化、非语义保持的词序变化以及格标记删除等多种方式,丰富了韩语语言模型的训练数据,旨在提升模型对韩语句法结构的理解和生成能力。
当前挑战
SIKO数据集在构建过程中面临多重挑战。首先,语义保持的词序变化要求在不改变句子意义的前提下调整词序,这对注释者的语言理解能力提出了较高要求。其次,非语义保持的词序变化虽然通过随机打乱词序实现,但如何确保打乱后的句子仍具有一定的语法合理性,也是一个技术难点。此外,格标记删除操作需要依赖SKT的形态分析器,如何准确识别并删除格标记而不影响句子的整体结构,同样是一个复杂的问题。这些挑战不仅考验了数据集的构建技术,也对后续模型训练的效果产生了直接影响。
常用场景
经典使用场景
SIKO数据集在自然语言处理领域中被广泛应用于韩语句法特性的研究。通过语义保持和非语义保持的词序变化以及格标记删除等操作,该数据集为语言模型提供了丰富的训练数据,帮助研究者深入理解韩语句法结构对语义理解的影响。特别是在文本分类和自然语言推理任务中,SIKO数据集为模型提供了多样化的句法变体,增强了模型对韩语句法的鲁棒性。
解决学术问题
SIKO数据集解决了韩语自然语言处理中的句法多样性问题。通过生成语义保持和非语义保持的词序变化数据,研究者能够评估语言模型在不同句法结构下的表现,进而优化模型对韩语句法的理解能力。此外,格标记删除操作帮助研究者探索格标记在韩语句子中的重要性,为韩语语法研究提供了新的视角。
实际应用
在实际应用中,SIKO数据集被用于提升韩语文本分类和自然语言推理系统的性能。例如,在新闻分类任务中,模型通过训练SIKO数据集中的多样化句法变体,能够更准确地识别不同类别的新闻内容。此外,该数据集还被用于开发韩语智能助手和机器翻译系统,帮助这些系统更好地处理复杂的韩语句法结构。
数据集最近研究
最新研究方向
近年来,随着自然语言处理技术的飞速发展,韩语句法结构的研究逐渐成为热点。SIKO数据集作为基于KLUE基准的扩展,专注于韩语句法特征的建模,特别是在语义保持和非语义保持的词序变化以及格标记删除等方面提供了丰富的数据支持。该数据集的最新研究方向集中在如何通过语义保持的词序变化和格标记删除来增强语言模型的鲁棒性和泛化能力。这些研究不仅推动了韩语自然语言理解的前沿进展,还为多语言模型的跨语言迁移学习提供了新的视角。SIKO数据集的引入,为韩语NLP领域的研究者提供了宝贵的资源,助力于更精准的文本分类和自然语言推理任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作