ru-HNP
收藏魔搭社区2025-12-05 更新2025-08-02 收录
下载链接:
https://modelscope.cn/datasets/deepvk/ru-HNP
下载链接
链接失效反馈官方服务:
资源简介:
# RuHNP
RuHNP (Russian-Hard-Non-Paraphrases) is a freely available dataset of paraphrases.
It was generated using ChatGPT (`gpt-3.5-turbo`) with the aim to provide high-quality negative pairs to enhance understanding of paraphrases by sentence encoders.
For each text from Wikipedia, a neutral data source, we generate 5 positive and 5 negative pairs.
A manual evaluation performed on several models shows that the distance between the distributions of the cosine similarity of positive and negative pairs increases for validation data, even for other datasets such as
[stsb_multi_mt](https://huggingface.co/datasets/PhilipMay/stsb_multi_mt) and [paraphrases](https://huggingface.co/datasets/inkoziev/paraphrases).
The dataset contains a total of 1 million text pairs: 100,000 texts with 5 positive and 5 negative pairs for each.
## Introspection
In order to analyze the quality of the resulting dataset, the following experiment was proposed:
1. Identify and select several trained models that specialize in tasks of identifying paraphrased texts and measuring semantic similarity for the Russian language.
2. Train the selected models on the `RuHNP` training dataset using a uniform training pipeline
3. Use the test parts of datasets containing negative pairs to construct graphs that show the distribution of cosine similarities before and after the training process, averaged between models.
For four out of the five datasets new to the models, we observe a divergence in the distribution of negative pairs from the distribution of positive pairs, indicating data generalizability.
<img src="cos_sim_change.jpg" alt="drawing"/>
## Supported Tasks and Leaderboards
Paraphrase detection and generation are popular NLP tasks, and are being increasingly integrated into a wide variety of common downstream tasks, such as paraphrase identification, information retrieval, question answering, and semantic parsing.
## Dataset Structure
Each data instance has the following fields:
- `query`: a text from Wikipedia.
- `pos`: an array of 5 generated positive paraphrases.
- `neg`: an array of 5 generated negative paraphrases.
For example:
```
{
'query': 'Расстояние — 8 км до административного центра провинции.',
'pos': [
'До административного центра провинции 8 км.',
'8 километров — расстояние до административного центра провинции.',
'Административный центр провинции находится в 8 км отсюда.',
'До центра провинции всего 8 километров.',
'Расстояние до административного центра провинции составляет 8 километров.'
],
'neg": [
'Расстояние до административного центра провинции всего 2 км.',
'До административного центра провинции осталось пройти всего 1 км.',
'Центр провинции находится всего в 5 км отсюда.',
'Расстояние до административного центра провинции более 10 км.',
'До центра провинции нужно преодолеть 15 километров.'
]
}
```
The dataset is split into train/val/test with a ratio of 100000/590/2000.
## Dataset Creation
The data was generated using `gpt-3.5-turbo-0125` with the following prompt:
```json
Я хочу, чтобы ты действовал в качестве генератора данных. Я буду передавать тебе текст query. Для него сгенерируй 5 перефразированных текстов pos: [p1, p2, ..., p5] и 5 похожих текстов, но имеющих противоположный смысл neg: [n1, n2, ..., n5]. Предложения должны быть на русском языке. В качестве ответа верни следующую структуру: {"query": query, "pos": pos, "neg": neg}.
Пример:
{
"query": "Маленький мальчик шёл по лесу, было темно и страшно.",
"pos": [
"По лесу шёл маленький мальчик, было темно и страшно.",
"Маленький мальчик шёл через лес, темно и страшно.",
"По темному лесу шёл маленький мальчик, ему было страшно.",
"Маленький парень шагал по лесу, темно и страшно.",
"Маленький мальчик шёл по тёмному лесу, и ему было страшно."
],
"neg": [
"Большой мальчик шёл по лесу, было светло и спокойно.",
"Маленькая девочка бежала через лес, было ярко и весело.",
"Взрослый мужчина шагал по лесу, было темно и волнительно.",
"Маленький мальчик бежал по лесу, было светло и радостно.",
"По лесу шла стая весёлых птиц, и всё было светло и тихо."
]
}
Текст Q для генерации:
```
## Citations
```
@misc{deepvk2024ru_hnp,
title={RuHNP: Russian Hard-Non-Paraphrases},
author={Malashenko, Boris and Zemerov, Anton and Spirin, Egor},
url={https://huggingface.co/datasets/deepvk/ru-HNP},
publisher={Hugging Face}
year={2024},
}
```
# RuHNP
RuHNP(俄语困难非复述数据集,Russian-Hard-Non-Paraphrases)是一款开源可免费获取的复述数据集。其基于ChatGPT(`gpt-3.5-turbo`)生成,旨在构建高质量负样本对,以提升句子编码器(sentence encoder)对复述文本的理解能力。
该数据集以维基百科(Wikipedia)文本作为中立数据源,为每一条源文本生成5条正样本复述对与5条负样本非复述对。经多款模型开展的人工评估验证,即便针对stsb_multi_mt(https://huggingface.co/datasets/PhilipMay/stsb_multi_mt)与paraphrases(https://huggingface.co/datasets/inkoziev/paraphrases)等其他公开数据集的验证集,正负样本对的余弦相似度分布间距均有所扩大。
该数据集总计包含100万条文本对:涵盖10万条维基百科源文本,每条源文本对应5条正样本与5条负样本。
## 数据集自省分析
为分析所生成数据集的质量,本研究提出如下实验流程:
1. 遴选多款针对俄语语义相似度计算与复述识别任务的预训练模型。
2. 采用统一训练管线,基于RuHNP训练集对所选模型进行微调。
3. 利用包含负样本对的数据集测试集,构建跨模型平均的训练前后余弦相似度分布对比图。
针对模型未接触过的5个数据集中的4个,我们观测到负样本对分布与正样本对分布出现显著分离,这表明该数据集具备良好的泛化性。
<img src="cos_sim_change.jpg" alt="drawing"/>
## 支持任务与基准榜单
复述识别与生成是热门的自然语言处理(NLP)任务,正日益广泛集成于各类下游任务中,包括复述识别、信息检索、问答系统与语义解析。
## 数据集结构
每条数据实例包含以下字段:
- `query`:源自维基百科的源文本。
- `pos`:包含5条生成的正样本复述的数组。
- `neg`:包含5条生成的负样本非复述的数组。
示例如下:
{
'query': 'Расстояние — 8 км до административного центра провинции.',
'pos': [
'До административного центра провинции 8 км.',
'8 километров — расстояние до административного центра провинции.',
'Административный центр провинции находится в 8 км отсюда.',
'До центра провинции всего 8 километров.',
'Расстояние до административного центра провинции составляет 8 километров.'
],
'neg": [
'Расстояние до административного центра провинции всего 2 км.',
'До административного центра провинции осталось пройти всего 1 км.',
'Центр провинции находится всего в 5 км отсюда.',
'Расстояние до административного центра провинции более 10 км.',
'До центра провинции нужно преодолеть 15 километров.'
]
}
该数据集按照100000:590:2000的比例划分为训练集、验证集与测试集。
## 数据集构建
本数据集通过`gpt-3.5-turbo-0125`生成,所用提示词如下:
json
Я хочу, чтобы ты действовал в качестве генератора данных. Я буду передавать тебе текст query. Для него сгенерируй 5 перефразированных текстов pos: [p1, p2, ..., p5] и 5 похожих текстов, но имеющих противоположный смысл neg: [n1, n2, ..., n5]. Предложения должны быть на русском языке. В качестве ответа верни следующую структуру: {"query": query, "pos": pos, "neg": neg}.
Пример:
{
"query": "Маленький мальчик шёл по лесу, было темно и страшно.",
"pos": [
"По лесу шёл маленький мальчик, было темно и страшно.",
"Маленький мальчик шёл через лес, темно и страшно.",
"По темному лесу шёл маленький мальчик, ему было страшно.",
"Маленький парень шагал по лесу, темно и страшно.",
"Маленький мальчик шёл по тёмному лесу, и ему было страшно."
],
"neg": [
"Большой мальчик шёл по лесу, было светло и спокойно.",
"Маленькая девочка бежала через лес, было ярко и весело.",
"Взрослый мужчина шагал по лесу, было темно и волнительно.",
"Маленький мальчик бежал по лесу, было светло и радостно.",
"По лесу шла стая весёлых птиц, и всё было светло и тихо."
]
}
Текст Q для генерации:
## 引用信息
@misc{deepvk2024ru_hnp,
title={RuHNP: Russian Hard-Non-Paraphrases},
author={Malashenko, Boris and Zemerov, Anton and Spirin, Egor},
url={https://huggingface.co/datasets/deepvk/ru-HNP},
publisher={Hugging Face}
year={2024},
}
提供机构:
maas
创建时间:
2025-08-01



