RuBia
收藏arXiv2024-03-26 更新2024-07-23 收录
下载链接:
https://github.com/vergrig/RuBia-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
RuBia数据集是由女王大学和高等经济学院合作开发的,专门用于检测俄语中的社会偏见。该数据集包含1989个独特的句子对,分为四个主要领域:性别、国籍、社会经济地位和多样性,每个领域进一步细分为多个子领域。数据集中的每个示例由两个句子组成,第一个句子强化潜在的有害刻板印象或主题,第二个句子则与之矛盾。这些句子对首先由志愿者编写,然后由母语为俄语的众包工作者验证。RuBia数据集旨在评估大型语言模型(LLMs)在处理俄语时的公平性,并提供了一个工具来进一步研究和改进。
The RuBia dataset was co-developed by Queen's University and the Higher School of Economics, specifically tailored for detecting social biases in Russian. It comprises 1989 unique sentence pairs, divided into four core domains: gender, nationality, socioeconomic status, and diversity, with each domain further subdivided into multiple sub-domains. Each sample in the dataset consists of two sentences: the first sentence reinforces potentially harmful stereotypes or relevant topics, while the second sentence contradicts the first one. These sentence pairs were initially drafted by volunteers and subsequently verified by Russian-native crowdsourcing workers. The RuBia dataset aims to evaluate the fairness of large language models (LLMs) when processing Russian, and provides a valuable tool for further research and improvement.
提供机构:
女王大学
创建时间:
2024-03-26
原始信息汇总
RuBia-Dataset 数据集概述
数据集文件
- rubia.tsv: 包含RuBia数据集的示例。
- scored_data.tsv: 包含示例和九个语言模型的PPL分数。
数据集结构
数据集分为以下几个部分:
主文件夹
- rubia.tsv: 包含数据集中的示例。
- scored_data.tsv: 包含示例和九个语言模型的PPL分数。
分析
- Preprocess.ipynb: 数据预处理和验证结果聚合。
- Model-Scoring.ipynb: 使用lmppl库对九个语言模型进行评分。
- lmppl-main.zip: 修改后的lmppl库代码。
- statistics.tsv: 包含原始评分结果的表格。
数据收集
- Bot-Runtime.ipynb: 响应收集Telegram机器人的代码。
- config.json: 机器人的配置文件。
- tasks: 包含不同子域任务的txt文件夹。
- interface: 包含界面消息的txt文件夹。
数据验证
- Type-1-Ru: 包含每个域的问题文件。
- Type-1-Translated: 包含英文翻译的说明文件。
- Type-2-Ru: 包含以下子域的问题文件。
- Type-2-Translated: 包含英文翻译的说明文件。
子域列表
数据集包含以下子域:
性别域
- 常见刻板印象
- 职业上下文
- 正面职业上下文
- 家庭上下文
- 正面属性分离
- 自由形式
- 性别代词
社会经济域
- 常见刻板印象
- 职业地位
- 自由形式
民族域
- 常见刻板印象
- 自由形式
- 反犹太刻板印象
- 移民刻板印象
多样性域
详细信息见论文。
引用
@misc{grigoreva2024rubia, title={RuBia: A Russian Language Bias Detection Dataset}, author={Veronika Grigoreva and Anastasiia Ivanova and Ilseyar Alimova and Ekaterina Artemova}, year={2024}, eprint={2403.17553}, archivePrefix={arXiv}, primaryClass={cs.CL} }
许可证
本工作基于Creative Commons Attribution 4.0 International License许可。



