AvitoTech/ru_gpqa_diamond

Name: AvitoTech/ru_gpqa_diamond
Creator: AvitoTech
Published: 2025-10-22 16:07:36
License: 暂无描述

Hugging Face2025-10-22 更新2026-01-03 收录

下载链接：

https://hf-mirror.com/datasets/AvitoTech/ru_gpqa_diamond

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-4.0 task_categories: - question-answering - text-generation language: - ru tags: - multiple-choice-qa - open-book-qa - open-domain-qa pretty_name: RU_GPQA size_categories: - n<1K --- # Карточка датасета GPQA Diamond (перевод на русский язык) Этот датасет представляет собой перевод на русский язык оригинального [набора данных](https://huggingface.co/datasets/Idavidrein/gpqa). \ GPQA — это набор вопросов и ответов с несколькими вариантами ответов. Полученные задания достаточно сложные и составленны и проверенны экспертами по биологии, физике и химии. Здесь только diamond часть всего датасета - 200 наиболее сложных задач уровня PhD. # Описание Датасет содержит 200 вопросов по биологии, физике и химии. Данные используются для оценки способностей моделей отвечать на сложные вопросы. \ Сложность заданий позволяет использовать бенчмарк не только для оценки фактических знаний модели о мире, но и для проверки её способности применять эти знания в процессе логических рассуждений. Все задачи и решения были переведены на русский язык с сохранением оригинальной структуры и формата. # Структура данных Данные содержат test и validation часть. Последняя предполагается для использования как FS (примеры) для модели.\ Каждый пример включает: Question,choice1,choice2,choice3,choice4,answer,choices,answer_w_think * Question — текст вопроса; * choice1,choice2,choice3,choice4/choices — текста вариантов ответа; * answer — правильный ответ; * answer_w_think — пояснения к выбору варианта ответа. # Формат скоринга Для получения сравнимых результатов рекомендуется использовать методологию расчетов, представленную в [lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness/tree/main/lm_eval/tasks/gpqa). \ А также предлагаем мониторить статус пул-реквестов в [lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness) с добавлением текущего набора данных.

GPQA Diamond数据集卡片（俄语翻译版）该数据集是原始数据集[GPQA](https://huggingface.co/datasets/Idavidrein/gpqa)的俄语翻译版本。GPQA为多项选择问答（multiple-choice question answering）数据集，包含的任务难度较高，由生物学、物理学及化学领域专家编写并验证。本数据集仅涵盖原数据集的Diamond部分——200道博士（PhD）级别的高难度题目。 # 描述该数据集包含200道生物学、物理学与化学领域的题目，用于评估模型回答复杂问题的能力。因题目难度较高，此基准（benchmark）不仅可用于评估模型的世界事实知识，还能检验其在逻辑推理过程中应用这些知识的能力。所有任务及解答均已译为俄语，且保留了原始结构与格式。 # 数据结构数据包含测试集（test）与验证集（validation）两部分，其中验证集拟用作模型的少样本（few-shot，FS）示例。每个样本包含以下字段：Question、choice1、choice2、choice3、choice4、answer、choices、answer_w_think。具体说明如下： * Question——问题文本； * choice1、choice2、choice3、choice4/choices——选项文本； * answer——正确答案； * answer_w_think——答案选择的推理说明。 # 评分格式为获取可比较的结果，建议采用[lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness/tree/main/lm_eval/tasks/gpqa)中提供的计算方法。此外，建议关注[lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness)中关于添加本数据集的拉取请求（pull request）状态。

提供机构：

AvitoTech

5,000+

优质数据集

54 个

任务类型

进入经典数据集