five

youngwook-kim/kobest_v1

收藏
Hugging Face2024-03-28 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/youngwook-kim/kobest_v1
下载链接
链接失效反馈
官方服务:
资源简介:
KoBEST是一个韩语基准套件,包含5个需要高级韩语知识的自然语言理解任务。这些任务包括布尔问答、选择合理替代项、上下文中的词语、HellaSwag和情感否定识别。数据集的结构包括不同任务的数据实例、数据字段和数据分割情况。

KoBEST是一个韩语基准套件,包含5个需要高级韩语知识的自然语言理解任务。这些任务包括布尔问答、选择合理替代项、上下文中的词语、HellaSwag和情感否定识别。数据集的结构包括不同任务的数据实例、数据字段和数据分割情况。
提供机构:
youngwook-kim
原始信息汇总

数据集概述

数据集名称

  • 名称: KoBEST

数据集描述

  • 摘要: KoBEST是一个包含5个自然语言理解任务的韩语基准套件,这些任务需要高级的韩语知识。
  • 支持的任务: 布尔问题回答、可信替代选择、上下文中的单词、HellaSwag、情感否定识别。
  • 语言: 韩语 (ko-KR)

数据集结构

  • 数据实例:

    • KB-BoolQ: 包含段落、问题和标签(真/假)。
    • KB-COPA: 包含前提、问题、两个替代选项和标签。
    • KB-WiC: 包含目标词、两个上下文和标签。
    • KB-HellaSwag: 包含上下文、四个结尾选项和标签。
    • KB-SentiNeg: 包含句子及其情感标签(正面/负面)。
  • 数据字段:

    • KB-BoolQ: 段落、问题、标签。
    • KB-COPA: 前提、问题、两个替代选项、标签。
    • KB-WiC: 目标词、两个上下文、标签。
    • KB-HellaSwag: 上下文、四个结尾选项、标签。
    • KB-SentiNeg: 句子、标签。
  • 数据分割:

    • KB-BoolQ: 训练集3,665条,开发集700条,测试集1,404条。
    • KB-COPA: 训练集3,076条,开发集1,000条,测试集1,000条。
    • KB-WiC: 训练集3,318条,开发集1,260条,测试集1,260条。
    • KB-HellaSwag: 训练集3,665条,开发集700条,测试集1,404条。
    • KB-SentiNeg: 训练集3,649条,开发集400条,测试集397条。

数据集创建

  • 来源: 原始数据
  • 许可证: CC-BY-SA-4.0
  • 语言生成者: 专家生成
  • 注释创建者: 专家生成
  • 多语言性: 单语种
  • 大小类别: 10,000<n<100,000

附加信息

  • 贡献者: @MJ-Jang

  • 引用信息:

    @misc{https://doi.org/10.48550/arxiv.2204.04541, doi = {10.48550/ARXIV.2204.04541}, url = {https://arxiv.org/abs/2204.04541}, author = {Kim, Dohyeong and Jang, Myeongjun and Kwon, Deuk Sin and Davis, Eric}, title = {KOBEST: Korean Balanced Evaluation of Significant Tasks}, publisher = {arXiv}, year = {2022}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作