youngwook-kim/kobest_v1
收藏Hugging Face2024-03-28 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/youngwook-kim/kobest_v1
下载链接
链接失效反馈官方服务:
资源简介:
KoBEST是一个韩语基准套件,包含5个需要高级韩语知识的自然语言理解任务。这些任务包括布尔问答、选择合理替代项、上下文中的词语、HellaSwag和情感否定识别。数据集的结构包括不同任务的数据实例、数据字段和数据分割情况。
KoBEST是一个韩语基准套件,包含5个需要高级韩语知识的自然语言理解任务。这些任务包括布尔问答、选择合理替代项、上下文中的词语、HellaSwag和情感否定识别。数据集的结构包括不同任务的数据实例、数据字段和数据分割情况。
提供机构:
youngwook-kim
原始信息汇总
数据集概述
数据集名称
- 名称: KoBEST
数据集描述
- 摘要: KoBEST是一个包含5个自然语言理解任务的韩语基准套件,这些任务需要高级的韩语知识。
- 支持的任务: 布尔问题回答、可信替代选择、上下文中的单词、HellaSwag、情感否定识别。
- 语言: 韩语 (
ko-KR)
数据集结构
-
数据实例:
- KB-BoolQ: 包含段落、问题和标签(真/假)。
- KB-COPA: 包含前提、问题、两个替代选项和标签。
- KB-WiC: 包含目标词、两个上下文和标签。
- KB-HellaSwag: 包含上下文、四个结尾选项和标签。
- KB-SentiNeg: 包含句子及其情感标签(正面/负面)。
-
数据字段:
- KB-BoolQ: 段落、问题、标签。
- KB-COPA: 前提、问题、两个替代选项、标签。
- KB-WiC: 目标词、两个上下文、标签。
- KB-HellaSwag: 上下文、四个结尾选项、标签。
- KB-SentiNeg: 句子、标签。
-
数据分割:
- KB-BoolQ: 训练集3,665条,开发集700条,测试集1,404条。
- KB-COPA: 训练集3,076条,开发集1,000条,测试集1,000条。
- KB-WiC: 训练集3,318条,开发集1,260条,测试集1,260条。
- KB-HellaSwag: 训练集3,665条,开发集700条,测试集1,404条。
- KB-SentiNeg: 训练集3,649条,开发集400条,测试集397条。
数据集创建
- 来源: 原始数据
- 许可证: CC-BY-SA-4.0
- 语言生成者: 专家生成
- 注释创建者: 专家生成
- 多语言性: 单语种
- 大小类别: 10,000<n<100,000
附加信息
-
贡献者: @MJ-Jang
-
引用信息:
@misc{https://doi.org/10.48550/arxiv.2204.04541, doi = {10.48550/ARXIV.2204.04541}, url = {https://arxiv.org/abs/2204.04541}, author = {Kim, Dohyeong and Jang, Myeongjun and Kwon, Deuk Sin and Davis, Eric}, title = {KOBEST: Korean Balanced Evaluation of Significant Tasks}, publisher = {arXiv}, year = {2022}, }



