Sangeetha/Kaggle-LLM-Science-Exam
收藏Hugging Face2023-08-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Sangeetha/Kaggle-LLM-Science-Exam
下载链接
链接失效反馈官方服务:
资源简介:
LLM Science Exam Kaggle Competition数据集是一个由大型语言模型生成的科学问题数据集。数据集包含问题文本、多个选项以及由生成模型定义的最正确答案。数据集的语言包括英语、德语、意大利语、西班牙语、法语、葡萄牙语、印度尼西亚语、波兰语、罗马尼亚语、索马里语、加泰罗尼亚语、丹麦语、斯瓦希里语、匈牙利语、挪威语、荷兰语、爱沙尼亚语、南非荷兰语、克罗地亚语、拉脱维亚语和斯洛文尼亚语。数据集的结构包括问题提示、选项和答案,训练集包含6684行数据。数据集的创建归功于竞赛组织者和参与者。
提供机构:
Sangeetha
原始信息汇总
数据集概述
数据集描述
数据集总结
- 数据集链接:https://www.kaggle.com/competitions/kaggle-llm-science-exam/data
语言
- 支持的语言:英语(en)、德语(de)、他加禄语(tl)、意大利语(it)、西班牙语(es)、法语(fr)、葡萄牙语(pt)、印度尼西亚语(id)、波兰语(pl)、罗马尼亚语(ro)、索马里语(so)、加泰罗尼亚语(ca)、丹麦语(da)、斯瓦希里语(sw)、匈牙利语(hu)、挪威语(no)、荷兰语(nl)、爱沙尼亚语(et)、南非荷兰语(af)、克罗地亚语(hr)、拉脱维亚语(lv)、斯洛文尼亚语(sl)
数据集结构
数据字段
- 提示(prompt):问题的文本
- 选项A(A):如果此选项正确,则答案为A
- 选项B(B):如果此选项正确,则答案为B
- 选项C(C):如果此选项正确,则答案为C
- 选项D(D):如果此选项正确,则答案为D
- 选项E(E):如果此选项正确,则答案为E
- 答案(answer):由生成的大型语言模型定义的最正确答案(A、B、C、D或E之一)
数据分割
- 训练集:6684行
数据集创建
- 数据集由竞赛组织者创建,用于回答由大型语言模型生成的高难度科学问题。
- 数据集生成依赖于具有1750亿参数的gpt3.5模型。
贡献者
- Kaggle - LLM Science Exam 贡献者



