five

skt/kobest_v1

收藏
Hugging Face2024-03-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/skt/kobest_v1
下载链接
链接失效反馈
官方服务:
资源简介:
KoBEST是一个韩语基准套件,包含5个自然语言理解任务,这些任务需要高级的韩语知识。数据集涵盖了BoolQ、COPA、WiC、HellaSwag和SentiNeg等任务,每个任务都有详细的实例和数据字段描述。数据集的语言为韩语,由专家生成,且是单语种数据集。
提供机构:
skt
原始信息汇总

数据集概述

数据集名称

  • KoBEST

语言

  • 韩语 (ko-KR)

许可证

  • CC-BY-SA-4.0

多语言性

  • 单语种

数据集大小

  • 10,000 < n < 100,000

数据集来源

  • 原始数据

配置详情

  • 配置名称:boolq
    • 训练数据路径:"boolq/train.jsonl"
    • 测试数据路径:"boolq/test.jsonl"
    • 验证数据路径:"boolq/validation.jsonl"
  • 配置名称:copa
    • 训练数据路径:"copa/train.jsonl"
    • 测试数据路径:"copa/test.jsonl"
    • 验证数据路径:"copa/validation.jsonl"
  • 配置名称:hellaswag
    • 训练数据路径:"hellaswag/train.jsonl"
    • 测试数据路径:"hellaswag/test.jsonl"
    • 验证数据路径:"hellaswag/validation.jsonl"
  • 配置名称:sentineg
    • 训练数据路径:"sentineg/train.jsonl"
    • 测试数据路径:"sentineg/test.jsonl"
    • 测试原始数据路径:"sentineg/test_originated.jsonl"
    • 验证数据路径:"sentineg/validation.jsonl"
  • 配置名称:wic
    • 训练数据路径:"wic/train.jsonl"
    • 测试数据路径:"wic/test.jsonl"
    • 验证数据路径:"wic/validation.jsonl"

数据集结构

  • 数据实例

    • KB-BoolQ
      • 字段:paragraph, question, label
    • KB-COPA
      • 字段:premise, question, alternative_1, alternative_2, label
    • KB-WiC
      • 字段:word, context_1, context_2, label
    • KB-HellaSwag
      • 字段:context, ending_1, ending_2, ending_3, ending_4, label
    • KB-SentiNeg
      • 字段:sentence, label
  • 数据分割

    • KB-BoolQ
      • 训练:3,665
      • 验证:700
      • 测试:1,404
    • KB-COPA
      • 训练:3,076
      • 验证:1,000
      • 测试:1,000
    • KB-WiC
      • 训练:3,318
      • 验证:1,260
      • 测试:1,260
    • KB-HellaSwag
      • 训练:3,665
      • 验证:700
      • 测试:1,404
    • KB-SentiNeg
      • 训练:3,649
      • 验证:400
      • 测试:397
      • 测试原始数据:397

支持的任务

  • Boolean Question Answering
  • Choice of Plausible Alternatives
  • Words-in-Context
  • HellaSwag
  • Sentiment Negation Recognition
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作