five

AvitoTech/ru_gpqa_diamond

收藏
Hugging Face2025-10-22 更新2026-01-03 收录
下载链接:
https://hf-mirror.com/datasets/AvitoTech/ru_gpqa_diamond
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-4.0 task_categories: - question-answering - text-generation language: - ru tags: - multiple-choice-qa - open-book-qa - open-domain-qa pretty_name: RU_GPQA size_categories: - n<1K --- # Карточка датасета GPQA Diamond (перевод на русский язык) Этот датасет представляет собой перевод на русский язык оригинального [набора данных](https://huggingface.co/datasets/Idavidrein/gpqa). \ GPQA — это набор вопросов и ответов с несколькими вариантами ответов. Полученные задания достаточно сложные и составленны и проверенны экспертами по биологии, физике и химии. Здесь только diamond часть всего датасета - 200 наиболее сложных задач уровня PhD. # Описание Датасет содержит 200 вопросов по биологии, физике и химии. Данные используются для оценки способностей моделей отвечать на сложные вопросы. \ Сложность заданий позволяет использовать бенчмарк не только для оценки фактических знаний модели о мире, но и для проверки её способности применять эти знания в процессе логических рассуждений. Все задачи и решения были переведены на русский язык с сохранением оригинальной структуры и формата. # Структура данных Данные содержат test и validation часть. Последняя предполагается для использования как FS (примеры) для модели.\ Каждый пример включает: Question,choice1,choice2,choice3,choice4,answer,choices,answer_w_think * Question — текст вопроса; * choice1,choice2,choice3,choice4/choices — текста вариантов ответа; * answer — правильный ответ; * answer_w_think — пояснения к выбору варианта ответа. # Формат скоринга Для получения сравнимых результатов рекомендуется использовать методологию расчетов, представленную в [lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness/tree/main/lm_eval/tasks/gpqa). \ А также предлагаем мониторить статус пул-реквестов в [lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness) с добавлением текущего набора данных.

GPQA Diamond数据集卡片(俄语翻译版) 该数据集是原始数据集[GPQA](https://huggingface.co/datasets/Idavidrein/gpqa)的俄语翻译版本。GPQA为多项选择问答(multiple-choice question answering)数据集,包含的任务难度较高,由生物学、物理学及化学领域专家编写并验证。本数据集仅涵盖原数据集的Diamond部分——200道博士(PhD)级别的高难度题目。 # 描述 该数据集包含200道生物学、物理学与化学领域的题目,用于评估模型回答复杂问题的能力。因题目难度较高,此基准(benchmark)不仅可用于评估模型的世界事实知识,还能检验其在逻辑推理过程中应用这些知识的能力。所有任务及解答均已译为俄语,且保留了原始结构与格式。 # 数据结构 数据包含测试集(test)与验证集(validation)两部分,其中验证集拟用作模型的少样本(few-shot,FS)示例。每个样本包含以下字段:Question、choice1、choice2、choice3、choice4、answer、choices、answer_w_think。具体说明如下: * Question——问题文本; * choice1、choice2、choice3、choice4/choices——选项文本; * answer——正确答案; * answer_w_think——答案选择的推理说明。 # 评分格式 为获取可比较的结果,建议采用[lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness/tree/main/lm_eval/tasks/gpqa)中提供的计算方法。此外,建议关注[lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness)中关于添加本数据集的拉取请求(pull request)状态。
提供机构:
AvitoTech
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作