five

deepvk/ru-HNP

收藏
Hugging Face2024-06-10 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/deepvk/ru-HNP
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 task_categories: - feature-extraction language: - ru size_categories: - 100K<n<1M --- # RuHNP RuHNP (Russian-Hard-Non-Paraphrases) is a freely available dataset of paraphrases. It was generated using ChatGPT (`gpt-3.5-turbo`) with the aim to provide high-quality negative pairs to enhance understanding of paraphrases by sentence encoders. For each text from Wikipedia, a neutral data source, we generate 5 positive and 5 negative pairs. A manual evaluation performed on several models shows that the distance between the distributions of the cosine similarity of positive and negative pairs increases for validation data, even for other datasets such as [stsb_multi_mt](https://huggingface.co/datasets/PhilipMay/stsb_multi_mt) and [paraphrases](https://huggingface.co/datasets/inkoziev/paraphrases). The dataset contains a total of 1 million text pairs: 100,000 texts with 5 positive and 5 negative pairs for each. ## Introspection In order to analyze the quality of the resulting dataset, the following experiment was proposed: 1. Identify and select several trained models that specialize in tasks of identifying paraphrased texts and measuring semantic similarity for the Russian language. 2. Train the selected models on the `RuHNP` training dataset using a uniform training pipeline 3. Use the test parts of datasets containing negative pairs to construct graphs that show the distribution of cosine similarities before and after the training process, averaged between models. For four out of the five datasets new to the models, we observe a divergence in the distribution of negative pairs from the distribution of positive pairs, indicating data generalizability. <img src="cos_sim_change.jpg" alt="drawing"/> ## Supported Tasks and Leaderboards Paraphrase detection and generation are popular NLP tasks, and are being increasingly integrated into a wide variety of common downstream tasks, such as paraphrase identification, information retrieval, question answering, and semantic parsing. ## Dataset Structure Each data instance has the following fields: - `query`: a text from Wikipedia. - `pos`: an array of 5 generated positive paraphrases. - `neg`: an array of 5 generated negative paraphrases. For example: ``` { 'query': 'Расстояние — 8 км до административного центра провинции.', 'pos': [ 'До административного центра провинции 8 км.', '8 километров — расстояние до административного центра провинции.', 'Административный центр провинции находится в 8 км отсюда.', 'До центра провинции всего 8 километров.', 'Расстояние до административного центра провинции составляет 8 километров.' ], 'neg": [ 'Расстояние до административного центра провинции всего 2 км.', 'До административного центра провинции осталось пройти всего 1 км.', 'Центр провинции находится всего в 5 км отсюда.', 'Расстояние до административного центра провинции более 10 км.', 'До центра провинции нужно преодолеть 15 километров.' ] } ``` The dataset is split into train/val/test with a ratio of 100000/590/2000. ## Dataset Creation The data was generated using `gpt-3.5-turbo-0125` with the following prompt: ```json Я хочу, чтобы ты действовал в качестве генератора данных. Я буду передавать тебе текст query. Для него сгенерируй 5 перефразированных текстов pos: [p1, p2, ..., p5] и 5 похожих текстов, но имеющих противоположный смысл neg: [n1, n2, ..., n5]. Предложения должны быть на русском языке. В качестве ответа верни следующую структуру: {"query": query, "pos": pos, "neg": neg}. Пример: { "query": "Маленький мальчик шёл по лесу, было темно и страшно.", "pos": [ "По лесу шёл маленький мальчик, было темно и страшно.", "Маленький мальчик шёл через лес, темно и страшно.", "По темному лесу шёл маленький мальчик, ему было страшно.", "Маленький парень шагал по лесу, темно и страшно.", "Маленький мальчик шёл по тёмному лесу, и ему было страшно." ], "neg": [ "Большой мальчик шёл по лесу, было светло и спокойно.", "Маленькая девочка бежала через лес, было ярко и весело.", "Взрослый мужчина шагал по лесу, было темно и волнительно.", "Маленький мальчик бежал по лесу, было светло и радостно.", "По лесу шла стая весёлых птиц, и всё было светло и тихо." ] } Текст Q для генерации: ``` ## Citations ``` @misc{deepvk2024ru_hnp, title={RuHNP: Russian Hard-Non-Paraphrases}, author={Malashenko, Boris and Zemerov, Anton and Spirin, Egor}, url={https://huggingface.co/datasets/deepvk/ru-HNP}, publisher={Hugging Face} year={2024}, } ```

RuHNP (Russian-Hard-Non-Paraphrases) is a freely available dataset of paraphrases generated using ChatGPT (gpt-3.5-turbo). The primary goal of this dataset is to provide high-quality negative pairs to enhance understanding of paraphrases by sentence encoders. Each text from Wikipedia is paired with 5 positive and 5 negative paraphrases. The dataset contains a total of 1 million text pairs, with 100,000 texts each having 5 positive and 5 negative pairs. The dataset is split into train/val/test with a ratio of 100000/590/2000. The data generation process involved using a specific prompt with ChatGPT to create these pairs.
提供机构:
deepvk
原始信息汇总

RuHNP

RuHNP (Russian-Hard-Non-Paraphrases) 是一个免费提供的释义数据集。它使用 ChatGPT (gpt-3.5-turbo) 生成,旨在通过高质量的负样本对来增强句子编码器对释义的理解。

对于来自维基百科的每个文本,我们生成 5 个正样本对和 5 个负样本对。手动评估显示,在验证数据上,正样本和负样本的余弦相似度分布之间的距离增加,即使在其他数据集如 stsb_multi_mtparaphrases 上也是如此。

数据集总共包含 100 万个文本对:每个文本有 5 个正样本对和 5 个负样本对,共 100,000 个文本。

数据集结构

每个数据实例包含以下字段:

  • query: 来自维基百科的文本。
  • pos: 生成的 5 个正样本释义数组。
  • neg: 生成的 5 个负样本释义数组。

例如: json { query: Расстояние — 8 км до административного центра провинции., pos: [ До административного центра провинции 8 км., 8 километров — расстояние до административного центра провинции., Административный центр провинции находится в 8 км отсюда., До центра провинции всего 8 километров., Расстояние до административного центра провинции составляет 8 километров. ], neg: [ Расстояние до административного центра провинции всего 2 км., До административного центра провинции осталось пройти всего 1 км., Центр провинции находится всего в 5 км отсюда., Расстояние до административного центра провинции более 10 км., До центра провинции нужно преодолеть 15 километров. ] }

数据集分为训练/验证/测试集,比例为 100000/590/2000。

数据集创建

数据使用 gpt-3.5-turbo-0125 生成,使用以下提示: json Я хочу, чтобы ты действовал в качестве генератора данных. Я буду передавать тебе текст query. Для него сгенерируй 5 перефразированных текстов pos: [p1, p2, ..., p5] и 5 похожих текстов, но имеющих противоположный смысл neg: [n1, n2, ..., n5]. Предложения должны быть на русском языке. В качестве ответа верни следующую структуру: {"query": query, "pos": pos, "neg": neg}.

引用

@misc{deepvk2024ru_hnp, title={RuHNP: Russian Hard-Non-Paraphrases}, author={Malashenko, Boris and Zemerov, Anton and Spirin, Egor}, url={https://huggingface.co/datasets/deepvk/ru-HNP}, publisher={Hugging Face} year={2024}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作