wikisource_preferences_ru

Hugging Face2025-05-19 更新2025-05-20 收录

下载链接：

https://huggingface.co/datasets/kristaller486/wikisource_preferences_ru

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于优化偏好的俄语文本数据集。选中的文本来自于kristaller486的wikisource-creative-ru数据集，而拒绝的文本是由多种LLM模型根据生成的提示生成的。数据集包含了多个字段，如标题、原文、段落数据、生成提示、合成文本等，以支持文本生成偏好的优化任务。

创建时间：

2025-05-16

原始信息汇总

数据集概述：Wikisource Preferences [Russian]

基本信息

许可证: Apache-2.0
语言: 俄语 (ru)
任务类别: 文本生成 (text-generation)
标签: DPO、合成数据 (synthetic)、偏好优化 (preference-optimization)、创意写作 (creative-writing)

数据集结构

特征 (Features)

gpt-4.1-mini-orig-segment-score: 字符串
title: 字符串
original_text: 字符串
id: 字符串
url: 字符串
segment_start: 字符串
segment_end: 字符串
segment_text: 字符串
segment_prompt: 字符串
has_segment: 布尔值
generated_prompt: 字符串
synthetic_text: 字符串
generation_model: 字符串
messages: 列表
- content: 字符串
- role: 字符串
chosen: 结构体
- content: 字符串
- role: 字符串
rejected: 结构体
- content: 字符串
- role: 字符串

数据分片 (Splits)

train
- 样本数量: 48,293
- 大小: 3,470,469,478 字节
- 下载大小: 1,697,813,356 字节

数据来源与用途

用途: 偏好优化 (preference optimization)
chosen文本来源: kristaller486/wikisource-creative-ru
rejected文本生成: 由多种LLM基于生成的提示生成

模型信息

用于生成rejected样本的模型

google/gemma-3-27b-it
gpt-4.1-mini
gpt-4.1-nano
gpt-4.1
gemini-2.0-flash
Qwen/Qwen3-14B-FP8 (without reasoning)
Moraliane/SAINEMO-reMIX (fp6-llm quantization)
deepseek-v3-0324 (api)
IlyaGusev/saiga_llama3_8b
Qwen/Qwen2.5-7B-Instruct
meta-llama/Meta-Llama-3.1-8B-Instruct
mistralai/Ministral-8B-Instruct-2410
yandex/YandexGPT-5-Lite-8B-instruct
IlyaGusev/saiga_yandexgpt_8b
gaunernst/gemma-3-12b-it-qat-autoawq
gemini-2.0-flash-lite
gpt-4o-mini

其他信息

DPO模板: axolotl chat_template.default

搜集汇总

数据集介绍

构建方式

wikisource_preferences_ru数据集构建于俄罗斯语料库的偏好优化任务，其核心数据来源于kristaller486/wikisource-creative-ru中的精选文本作为正样本，通过多样化的大型语言模型生成负样本。构建过程中采用了包括Gemma-3-27B、GPT系列变体、Qwen等14种前沿模型进行对抗性文本生成，并严格遵循axolotl聊天模板规范，确保数据对的质量与多样性。每个样本均包含原始文本片段、生成提示词及模型元数据，形成结构化对比学习框架。

特点

该数据集最显著的特点是涵盖多模型生成的对抗性样本对，包含48293个训练实例的俄语文本数据。每个数据点具备完整的元信息链，从原始文本位置标记到生成模型的版本细节，为研究者提供透明的数据溯源能力。其结构化字段设计支持直接偏好优化（DPO）任务，特别是chosen-rejected对比字段采用消息角色架构，完美适配对话系统的偏好学习。多模型参与生成的特性使数据集具备更广的负样本覆盖度，有助于提升模型的判别能力。

使用方法

使用该数据集时，建议通过HuggingFace标准接口加载训练分割数据，直接适配axolotl训练框架进行DPO微调。数据中的messages字段可直接作为对话历史输入，chosen和rejected结构体分别对应优化目标与负样本。研究者可利用segment_start/end字段实现原文定位验证，或通过generation_model字段进行模型特异性分析。对于创意写作任务，synthetic_text与original_text的对比可辅助评估生成质量。注意需遵守Apache-2.0许可协议，并在多模型对比实验中明确标注各生成模型的贡献。

背景与挑战

背景概述

wikisource_preferences_ru数据集是专为优化文本生成模型偏好而设计的俄语数据集，其核心研究问题聚焦于如何通过直接偏好优化（DPO）方法提升生成文本的质量与人类偏好的一致性。该数据集由研究团队基于kristaller486/wikisource-creative-ru数据集构建，通过整合多种先进语言模型生成的对比样本，为俄语自然语言处理领域提供了重要的基准资源。其创新性在于大规模利用合成数据与多模型对比策略，为俄语文本生成模型的微调与评估开辟了新途径。

当前挑战

该数据集面临的挑战主要体现在两方面：领域问题层面，如何准确量化文本生成质量与人类偏好的对齐程度仍存在方法论争议，特别是针对俄语这种形态复杂的语言；构建过程层面，协调15种异构语言模型的输出一致性需要复杂的质量控制机制，且合成文本的多样性可能引入难以检测的偏见。多模型并行生成带来的数据异构性也对后续的模型训练提出了额外的特征工程要求。

常用场景

经典使用场景

在自然语言处理领域，wikisource_preferences_ru数据集被广泛用于偏好优化研究。该数据集通过对比精选文本与多种大型语言模型生成的拒绝文本，为研究者提供了丰富的对比样本。这种结构特别适用于直接偏好优化（DPO）任务，帮助模型学习区分高质量与低质量文本生成结果。数据集中的俄语文本特性使其成为跨语言研究的理想素材，尤其在处理斯拉夫语系语言时展现出独特价值。

衍生相关工作

基于该数据集衍生的研究推动了多个创新方向。有工作探索了多语言偏好传递学习，将俄语偏好模式迁移至其他斯拉夫语种；部分研究改进了DPO损失函数，提出动态加权优化方法；还有团队构建了生成质量评估指标体系，建立了文本流畅度、事实准确性与伦理合规性的多维评价标准。

数据集最近研究