five

ru-WANLI

收藏
魔搭社区2025-12-05 更新2025-08-02 收录
下载链接:
https://modelscope.cn/datasets/deepvk/ru-WANLI
下载链接
链接失效反馈
官方服务:
资源简介:
# RuWANLI RuWaNLI (Russian-Worker-AI Collaboration for NLI) is a natural language inference dataset inspired by [Liu et al. (2022)](https://arxiv.org/pdf/2201.05955). We replicated the WaNLI generation pipeline, but for Russian with some changes in labeling process. See [Dataset Structure](#dataset-structure) for details about the dataset itself and [Dataset Creation](#dataset-creation) for details about the collection process. ## Supported Tasks and Leaderboards > The dataset can be used to train natural language inference models which determine whether a premise entails (i.e., implies the truth of) a hypothesis, both expressed in natural language. Success on this task is typically measured by achieving a high accuracy. As we add an additional step, the dataset can be used for sentence encoder training, using contradictions as hard negatives. ## Dataset Structure Each data instance has the following fields: - `premise`: a piece of text. - `hypothesis`: a piece of text that may be true, false, or whose truth conditions may not be known when compared to the premise. - `label`: either `entailment`, `contradiction`, or `neutral`. For example: ```json { "premise": "Мальчик бежит в детскую игровую комнату с разноцветными шарами.", "hypothesis": "Мальчик идет спать в свою кровать.", "label": "contradiction" } ``` The dataset is split into train/val/test with a ratio of 100000/2360/5000. The distribution over classes is follow: <img src="images/pie.jpg" width="50%"> ## Dataset Creation At first, we combine the translated ANLI, SNLI and MNLI datasets into ALLNLI. Following [Liu et al. (2022)](https://arxiv.org/pdf/2201.05955), we use dataset cartography to identify challenging data samples. We train a classification model based on the backbone of [deepvk/roberta-base](https://huggingface.co/deepvk/roberta-base) for creating data maps. The resulting data map is shown below. Compared to the original paper, we have acquired less a structured figure with less ambiguous examples. <img src="images/confidence-variability.jpg"> Then, we leverage ChatGPT (`gpt-3.5-turbo`) to generate new examples that are likely to have the same pattern. Afterward, we validate the generated examples using human review, where crowd workers assign a label or revise for quality. As we want to use RuWANLI for sentence encoder training, we add an extra step to generate missing entailments and contradictions for text/entailment/contradiction triplets using ChatGPT (`gpt-4-turbo`). ### Prompts #### Prompt for initial generation: ```json <instruction> Примеры: <example 1 first sentence> <label>: <example 1 second sentence> <example 2 first sentence> <label>: <example 2 second sentence> <example 3 first sentence> <label>: <example 3 second sentence> <example 4 first sentence> <label>: <example 4 second sentence> <example 5 first sentence> <label>: <example 5 second sentence> ``` Possible values for instructions: - **contradiction**: Написать 5 пар предложений, которые противоречат друг другу, как и предыдущие примеры. - **entailment**: Написать 5 пар предложений, как и предыдущие примеры. Второе предложение должно логически следовать из первого. - **neutral**: Написать 5 пар предложений, которые имеют такую же взаимосвязь, как и предыдущие примеры #### Prompt for contradiction generation: ``` Я хочу, чтобы ты действовал в качестве генератора данных для NLI датасета. Я буду передавать тебе предложение, которое я назову Q. Для Q ты должен будешь сгенерировать C: противоречие (contradicton). C не должно просто быть отрицанием Q, используй более сложные связи. Все сгенерированные тексты должны быть на русском языке. В качестве ответа верни json с такой структурой: {"query": <текст Q>, "contradiction": <текст C>}. Примеры пар (Q, C): 1. { "query": "Области, обслуживаемые дорогами, были застроены и, как правило, переполнены в разгар лета.", "contradiction": "Застроенные районы наиболее переполнены в мягкие зимние месяцы." }; 2. { "query": "За человеком, привязанным к веревкам, наблюдает толпа.", "contradiction": "Человек не привязан к верёвкам." }; 3. { "query": "Мужчина стоит, читает газету и курит сигару.", "contradiction": "Мужчина сидит на скамейке."}; Текст Q: ``` #### Prompt for entailment generation: ``` Я хочу, чтобы ты действовал в качестве генератора данных для NLI датасета. Я буду передавать тебе текст, который я назову Q. Для Q ты должен будешь сгенерировать E: логическое следствие (entailment). E не должно просто быть перефразированным текстом Q, используй более сложные связи. Все сгенерированные тексты должны быть на русском языке. В качестве ответа верни json с такой структурой: {"query": <текст Q>, "entailment": <текст E>}. Примеры пар (Q, E): 1. { "query": "Я плачу сто двадцать один доллар в месяц у меня есть еще один год, чтобы заплатить за мой дом.", "entailment": "Я плачу чуть больше 120 долларов в месяц." }; 2. { "query": "Прогресс Японии к парламентской демократии был остановлен в 1930-х годах растущим национализмом, навязанным правительству генералами и адмиралами.", "entailment": "Рост национализма остановил продвижение Японии к парламентской демократии." }; 3. { "query": "Если мы решим остаться, многие люди умрут, но мы надеемся, что сможем укусить бандитов на их пути.", "entailment": "Мы не можем остаться, потому что в противном случае погибнет много мирных жителей." }. Текст Q: ``` ### Annotation Process A total of 119 people participated in the annotation process. Each of the 74,258 texts received a rating between 3 and 5 annotators. In addition to one of the three classes, annotators could label the data as a “bad example”. This label serves as a signal for potentially excluding this data from the final version of the dataset. The exclusion occurs if the majority of annotators vote for the poor quality of a specific example. Despite the model's goal to generate text according to specific classes, additional verification by annotators revealed that only about half of the examples matched the ratings between the model and humans. A major challenge in data preparation was the absence of trusted annotators (“gold labels”), which complicated the filtering of results. To address this, a methodology was developed based on annotators' agreement with the majority. It was determined that removing 16 annotators was optimal, as further removal led to significant data loss. At this point, the Fleiss' kappa index was 0.65 (0.56 without data removal), and the data loss was -5.27%. <img src="images/kappa.jpg"> ### Limitations For more than half of the metrics, the quality on the test sample increased, but we were unable to achieve the same level of generalization as in the original WANLI study. The issue may be that we are creating synthetic data based on translations rather than original texts. In the table below, values that increased with the substitution of part of the original dataset with RuWANLI are highlighted green. Values not considered in the average calculation are highlighted gray. <img src="images/results.jpg"/> ### Personal and Sensitive Information The dataset does not contain any personal information about the authors or the crowd workers. ## Citations ``` @misc{deepvk2024ru_wanli, title={RuWANLI}, author={Malashenko, Boris and Zemerov, Anton and Spirin, Egor}, url={https://huggingface.co/datasets/deepvk/ru-WANLI}, publisher={Hugging Face} year={2024}, } ```

# RuWANLI RuWANLI(俄语-众包AI协作自然语言推理数据集,Russian-Worker-AI Collaboration for NLI)是一款受[Liu等人(2022)](https://arxiv.org/pdf/2201.05955)启发构建的自然语言推理(Natural Language Inference, NLI)数据集。我们复刻了原WaNLI的生成流程,并将其适配至俄语语料,同时对标注流程做出了部分调整。有关数据集本身的详细信息,请参见[数据集结构](#dataset-structure)章节;有关数据收集流程的细节,请参见[数据集构建](#dataset-creation)章节。 ## 支持任务与评测基准 > 本数据集可用于训练自然语言推理模型,此类模型需判断以自然语言表述的前提(premise)是否能够蕴含(即逻辑上证实)对应的假设(hypothesis)。该任务的性能通常以准确率作为核心评价指标。 由于我们新增了额外处理步骤,本数据集还可用于句子编码器的训练,其中可将矛盾样本作为难负样本(hard negatives)使用。 ## 数据集结构 每条数据样本包含以下字段: - `前提(premise)`:一段文本。 - `假设(hypothesis)`:一段文本,其真值可能与前提一致、相悖,或无法通过前提判定。 - `标签(label)`:可选值为`蕴含(entailment)`、`矛盾(contradiction)`或`中立(neutral)`。 例如: json { "premise": "Мальчик бежит в детскую игровую комнату с разноцветными шарами.", "hypothesis": "Мальчик идет спать в свою кровать.", "label": "contradiction" } 本数据集按照100000/2360/5000的比例划分为训练集、验证集与测试集。各类别的样本分布如下: <img src="images/pie.jpg" width="50%"> ## 数据集构建 首先,我们将翻译后的ANLI、SNLI与MNLI数据集整合为ALLNLI数据集。参考[Liu等人(2022)](https://arxiv.org/pdf/2201.05955)的研究,我们采用数据集制图(dataset cartography)方法识别高难度样本。我们基于[deepvk/roberta-base](https://huggingface.co/deepvk/roberta-base)的主干网络构建分类模型,以生成数据图谱。生成的数据图谱如下所示。与原研究相比,我们得到的数据图谱结构更简洁,且含有的歧义样本更少。 <img src="images/confidence-variability.jpg"> 随后,我们借助ChatGPT(`gpt-3.5-turbo`)生成符合同一模式的新样本。之后,我们通过人工审核对生成的样本进行验证,由众包工作者为样本标注标签或修正以保证质量。 由于我们计划将RuWANLI用于句子编码器的训练,我们新增了一个步骤:使用ChatGPT(`gpt-4-turbo`)为文本-蕴含-矛盾三元组生成缺失的蕴含关系与矛盾关系样本。 ### 提示词 #### 初始生成提示词: json <instruction> Примеры: <example 1 first sentence> <label>: <example 1 second sentence> <example 2 first sentence> <label>: <example 2 second sentence> <example 3 first sentence> <label>: <example 3 second sentence> <example 4 first sentence> <label>: <example 4 second sentence> <example 5 first sentence> <label>: <example 5 second sentence> 指令的可选取值包括: - **蕴含(entailment)**:生成5对句子,与前述示例保持一致,且第二句需从第一句逻辑推导而来。 - **矛盾(contradiction)**:生成5对相互矛盾的句子,与前述示例保持一致。 - **中立(neutral)**:生成5对句子,其语义关系与前述示例保持一致。 #### 矛盾样本生成提示词: Я хочу, чтобы ты действовал в качестве генератора данных для NLI датасета. Я буду передавать тебе предложение, которое я назову Q. Для Q ты должен будешь сгенерировать C: противоречие (contradicton). C не должно просто быть отрицанием Q, используй более сложные связи. Все сгенерированные тексты должны быть на русском языке. В качестве ответа верни json с такой структурой: {"query": <текст Q>, "contradiction": <текст C>}. Примеры пар (Q, C): 1. { "query": "Области, обслуживаемые дорогами, были застроены и, как правило, переполнены в разгар лета.", "contradiction": "Застроенные районы наиболее переполнены в мягкие зимние месяцы." }; 2. { "query": "За человеком, привязанным к веревкам, наблюдает толпа.", "contradiction": "Человек не привязан к верёвкам." }; 3. { "query": "Мужчина стоит, читает газету и курит сигару.", "contradiction": "Мужчина сидит на скамейке."}; Текст Q: #### 蕴含样本生成提示词: Я хочу, чтобы ты действовал в качестве генератора данных для NLI датасета. Я буду передавать тебе текст, который я назову Q. Для Q ты должен будешь сгенерировать E: логическое следствие (entailment). E не должно просто быть перефразированным текстом Q, используй более сложные связи. Все сгенерированные тексты должны быть на русском языке. В качестве ответа верни json с такой структурой: {"query": <текст Q>, "entailment": <текст E>}. Примеры пар (Q, E): 1. { "query": "Я плачу сто двадцать один доллар в месяц у меня есть еще один год, чтобы заплатить за мой дом.", "entailment": "Я плачу чуть больше 120 долларов в месяц." }; 2. { "query": "Прогресс Японии к парламентской демократии был остановлен в 1930-х годах растущим национализмом, навязанным правительству генералами и адмиралами.", "entailment": "Рост национализма остановил продвижение Японии к парламентской демократии." }; 3. { "query": "Если мы решим остаться, многие люди умрут, но мы надеемся, что сможем укусить бандитов на их пути.", "entailment": "Мы не можем остаться, потому что в противном случае погибнет много мирных жителей." }. Текст Q: ### 标注流程 本次标注流程共有119名参与者参与。74258条文本均由3至5名标注者进行标注。除前述三类标签外,标注者还可将样本标记为“劣质样本”。该标签可作为将样本从最终数据集中移除的依据:若多数标注者认为某样本质量不佳,则该样本将被移除。 尽管模型的目标是按照指定类别生成文本,但标注者的额外验证结果显示,仅有约半数样本的模型预测标签与人工标注标签一致。数据准备过程中的主要挑战在于缺乏可信的标注者“金标准标签(gold labels)”,这增加了结果筛选的难度。为此,我们基于标注者与多数投票结果的一致性开发了一套筛选方法。经测试,移除16名标注者为最优方案,进一步移除标注者将导致大量数据丢失。此时,Fleiss' Kappa系数为0.65(未移除标注者时为0.56),数据损失率为-5.27%。 <img src="images/kappa.jpg"> ### 局限性 在超过半数的评测指标上,测试集性能均有所提升,但我们未能达到原WANLI研究中的泛化性能水平。该问题可能源于我们基于翻译文本而非原始文本生成合成数据。下表中,将部分原始数据集替换为RuWANLI后性能提升的指标以绿色标注;未纳入平均值计算的指标以灰色标注。 <img src="images/results.jpg"/> ### 个人与敏感信息 本数据集未包含任何关于作者或众包工作者的个人信息。 ## 引用 @misc{deepvk2024ru_wanli, title={RuWANLI}, author={Malashenko, Boris and Zemerov, Anton and Spirin, Egor}, url={https://huggingface.co/datasets/deepvk/ru-WANLI}, publisher={Hugging Face} year={2024}, }
提供机构:
maas
创建时间:
2025-08-01
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作