skt/kobest_v1
收藏Hugging Face2024-03-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/skt/kobest_v1
下载链接
链接失效反馈官方服务:
资源简介:
KoBEST是一个韩语基准套件,包含5个自然语言理解任务,这些任务需要高级的韩语知识。数据集涵盖了BoolQ、COPA、WiC、HellaSwag和SentiNeg等任务,每个任务都有详细的实例和数据字段描述。数据集的语言为韩语,由专家生成,且是单语种数据集。
提供机构:
skt
原始信息汇总
数据集概述
数据集名称
- KoBEST
语言
- 韩语 (ko-KR)
许可证
- CC-BY-SA-4.0
多语言性
- 单语种
数据集大小
- 10,000 < n < 100,000
数据集来源
- 原始数据
配置详情
- 配置名称:boolq
- 训练数据路径:"boolq/train.jsonl"
- 测试数据路径:"boolq/test.jsonl"
- 验证数据路径:"boolq/validation.jsonl"
- 配置名称:copa
- 训练数据路径:"copa/train.jsonl"
- 测试数据路径:"copa/test.jsonl"
- 验证数据路径:"copa/validation.jsonl"
- 配置名称:hellaswag
- 训练数据路径:"hellaswag/train.jsonl"
- 测试数据路径:"hellaswag/test.jsonl"
- 验证数据路径:"hellaswag/validation.jsonl"
- 配置名称:sentineg
- 训练数据路径:"sentineg/train.jsonl"
- 测试数据路径:"sentineg/test.jsonl"
- 测试原始数据路径:"sentineg/test_originated.jsonl"
- 验证数据路径:"sentineg/validation.jsonl"
- 配置名称:wic
- 训练数据路径:"wic/train.jsonl"
- 测试数据路径:"wic/test.jsonl"
- 验证数据路径:"wic/validation.jsonl"
数据集结构
-
数据实例
- KB-BoolQ
- 字段:paragraph, question, label
- KB-COPA
- 字段:premise, question, alternative_1, alternative_2, label
- KB-WiC
- 字段:word, context_1, context_2, label
- KB-HellaSwag
- 字段:context, ending_1, ending_2, ending_3, ending_4, label
- KB-SentiNeg
- 字段:sentence, label
- KB-BoolQ
-
数据分割
- KB-BoolQ
- 训练:3,665
- 验证:700
- 测试:1,404
- KB-COPA
- 训练:3,076
- 验证:1,000
- 测试:1,000
- KB-WiC
- 训练:3,318
- 验证:1,260
- 测试:1,260
- KB-HellaSwag
- 训练:3,665
- 验证:700
- 测试:1,404
- KB-SentiNeg
- 训练:3,649
- 验证:400
- 测试:397
- 测试原始数据:397
- KB-BoolQ
支持的任务
- Boolean Question Answering
- Choice of Plausible Alternatives
- Words-in-Context
- HellaSwag
- Sentiment Negation Recognition



