KorNLI, KorSTS

github2024-05-22 更新2024-05-31 收录

下载链接：

https://github.com/kakaobrain/KorNLUDatasets

下载链接

链接失效反馈

官方服务：

资源简介：

KorNLI和KorSTS是用于韩语自然语言理解的新的基准数据集。KorNLI是一个韩语自然语言推理数据集，而KorSTS是一个韩语语义文本相似性数据集。

KorNLI and KorSTS are new benchmark datasets for Korean natural language understanding. KorNLI is a Korean natural language inference dataset, while KorSTS is a Korean semantic textual similarity dataset.

创建时间：

2020-04-08

原始信息汇总

数据集概述

KorNLI

数据集详情：

总样本数： 950,354
训练集： 942,854样本
开发集： 2,490样本
测试集： 5,010样本
平均前提词数： 训练集13.6，开发集13.0，测试集13.1
平均假设词数： 训练集7.2，开发集6.8，测试集6.8

数据来源：

训练集： 来自SNLI和MNLI，机器翻译
开发集和测试集： 来自XNLI，人工翻译

KorSTS

数据集详情：

总样本数： 8,628
训练集： 5,749样本
开发集： 1,500样本
测试集： 1,379样本
平均词数： 训练集7.5，开发集8.7，测试集7.6

数据来源：

所有集： 来自STS-B，机器翻译训练集，人工翻译开发集和测试集

许可证

本数据集遵循Creative Commons Attribution-ShareAlike license (CC BY-SA 4.0)。

引用信息

若使用KorNLI或KorSTS进行研究，请引用以下文献： bibtex @article{ham2020kornli, title={KorNLI and KorSTS: New Benchmark Datasets for Korean Natural Language Understanding}, author={Ham, Jiyeon and Choe, Yo Joong and Park, Kyubyong and Choi, Ilji and Soh, Hyungjoon}, journal={arXiv preprint arXiv:2004.03289}, year={2020} }

搜集汇总

数据集介绍

构建方式

在自然语言理解的领域中，KorNLI和KorSTS数据集的构建基于现有的英语NLI（自然语言推理）和STS（语义文本相似度）数据集。具体而言，KorNLI数据集通过机器翻译和人工校对的方式，将SNLI和MNLI数据集翻译为韩语，并进一步通过XNLI数据集进行验证。KorSTS数据集则通过机器翻译和人工校对，将STS-B数据集翻译为韩语。这种构建方式确保了数据集的高质量和多样性，为韩语自然语言处理研究提供了坚实的基础。

特点

KorNLI和KorSTS数据集的主要特点在于其高质量的翻译和多样化的样本。KorNLI包含超过95万条韩语NLI样本，涵盖了广泛的语境和逻辑关系，适用于训练和评估自然语言推理模型。KorSTS则包含8,628条韩语STS样本，提供了丰富的语义相似度评分，适用于语义文本相似度任务。此外，数据集的平均词数和句子长度适中，便于模型处理和分析。

使用方法

使用KorNLI和KorSTS数据集时，研究者可以将其应用于训练和评估自然语言处理模型。对于KorNLI，可以用于训练和验证自然语言推理模型，分析句子间的逻辑关系。对于KorSTS，可以用于训练和评估语义文本相似度模型，量化句子间的语义相似性。数据集的划分包括训练集、开发集和测试集，确保了模型的泛化能力和鲁棒性。使用时，建议遵循Creative Commons Attribution-ShareAlike 4.0国际许可协议，并在研究中引用相关文献。

背景与挑战

背景概述

KorNLI和KorSTS数据集是由Ham等人于2020年创建的，旨在为韩国自然语言理解（NLP）领域提供新的基准数据集。这两个数据集分别针对自然语言推理（NLI）和语义文本相似度（STS）任务，通过机器翻译和人工校对的方式，将英文数据集（如SNLI、MNLI和STS-B）翻译成韩文。KorNLI包含约95万条样本，而KorSTS则包含约8600条样本。这些数据集的创建不仅丰富了韩国NLP研究的资源，也为跨语言NLP模型的训练和评估提供了宝贵的数据支持。

当前挑战

KorNLI和KorSTS数据集在构建过程中面临的主要挑战包括：首先，机器翻译的质量直接影响数据集的准确性和可靠性，尤其是在NLI和STS任务中，细微的翻译差异可能导致标签错误。其次，人工校对过程耗时且成本高昂，如何在保证数据质量的同时提高效率是一个重要问题。此外，跨语言数据集的构建还面临语言特性和文化背景差异的挑战，如何确保翻译后的数据集在目标语言中保持原有的语义和逻辑关系，是研究人员需要解决的关键问题。

常用场景

经典使用场景

KorNLI和KorSTS数据集在自然语言理解领域中具有广泛的应用。KorNLI主要用于自然语言推理（NLI）任务，通过提供大量的前提和假设对，帮助模型学习如何判断两个句子之间的关系，如蕴含、矛盾或中性。KorSTS则专注于语义文本相似度（STS）任务，通过评分系统评估两个句子之间的相似度，为模型提供精确的语义匹配训练数据。

衍生相关工作

基于KorNLI和KorSTS数据集，研究者们开展了多项相关工作。例如，有研究利用这些数据集训练跨语言模型，以提升模型在多语言环境下的表现。此外，还有研究探索了如何利用这些数据集改进现有的自然语言处理算法，特别是在处理低资源语言时的效果。这些衍生工作进一步扩展了KorNLI和KorSTS数据集的应用范围和影响力。

数据集最近研究