AvitoTech/ru_gpqa_diamond
收藏Hugging Face2025-10-22 更新2026-01-03 收录
下载链接:
https://hf-mirror.com/datasets/AvitoTech/ru_gpqa_diamond
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
task_categories:
- question-answering
- text-generation
language:
- ru
tags:
- multiple-choice-qa
- open-book-qa
- open-domain-qa
pretty_name: RU_GPQA
size_categories:
- n<1K
---
# Карточка датасета GPQA Diamond (перевод на русский язык)
Этот датасет представляет собой перевод на русский язык оригинального [набора данных](https://huggingface.co/datasets/Idavidrein/gpqa). \
GPQA — это набор вопросов и ответов с несколькими вариантами ответов. Полученные задания достаточно сложные и составленны и проверенны экспертами по биологии, физике и химии.
Здесь только diamond часть всего датасета - 200 наиболее сложных задач уровня PhD.
# Описание
Датасет содержит 200 вопросов по биологии, физике и химии. Данные используются для оценки способностей моделей отвечать на сложные вопросы. \
Сложность заданий позволяет использовать бенчмарк не только для оценки фактических знаний модели о мире, но и для проверки её способности применять эти знания в процессе логических рассуждений. Все задачи и решения были переведены на русский язык с сохранением оригинальной структуры и формата.
# Структура данных
Данные содержат test и validation часть. Последняя предполагается для использования как FS (примеры) для модели.\
Каждый пример включает:
Question,choice1,choice2,choice3,choice4,answer,choices,answer_w_think
* Question — текст вопроса;
* choice1,choice2,choice3,choice4/choices — текста вариантов ответа;
* answer — правильный ответ;
* answer_w_think — пояснения к выбору варианта ответа.
# Формат скоринга
Для получения сравнимых результатов рекомендуется использовать методологию расчетов, представленную в [lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness/tree/main/lm_eval/tasks/gpqa). \
А также предлагаем мониторить статус пул-реквестов в [lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness) с добавлением текущего набора данных.
GPQA Diamond数据集卡片(俄语翻译版)
该数据集是原始数据集[GPQA](https://huggingface.co/datasets/Idavidrein/gpqa)的俄语翻译版本。GPQA为多项选择问答(multiple-choice question answering)数据集,包含的任务难度较高,由生物学、物理学及化学领域专家编写并验证。本数据集仅涵盖原数据集的Diamond部分——200道博士(PhD)级别的高难度题目。
# 描述
该数据集包含200道生物学、物理学与化学领域的题目,用于评估模型回答复杂问题的能力。因题目难度较高,此基准(benchmark)不仅可用于评估模型的世界事实知识,还能检验其在逻辑推理过程中应用这些知识的能力。所有任务及解答均已译为俄语,且保留了原始结构与格式。
# 数据结构
数据包含测试集(test)与验证集(validation)两部分,其中验证集拟用作模型的少样本(few-shot,FS)示例。每个样本包含以下字段:Question、choice1、choice2、choice3、choice4、answer、choices、answer_w_think。具体说明如下:
* Question——问题文本;
* choice1、choice2、choice3、choice4/choices——选项文本;
* answer——正确答案;
* answer_w_think——答案选择的推理说明。
# 评分格式
为获取可比较的结果,建议采用[lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness/tree/main/lm_eval/tasks/gpqa)中提供的计算方法。此外,建议关注[lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness)中关于添加本数据集的拉取请求(pull request)状态。
提供机构:
AvitoTech



