label-gender_agreement-sentence-rrt-v2
收藏Hugging Face2025-07-28 更新2025-07-29 收录
下载链接:
https://huggingface.co/datasets/hartular/label-gender_agreement-sentence-rrt-v2
下载链接
链接失效反馈官方服务:
资源简介:
这是一个生成性别协议错误的数据集,包含文本和标签特征,适用于文本分类任务。数据集分为训练集、测试集以及三个子集(数字、人、案例),共有超过12万条示例。数据集以MIT许可证发布,支持罗马尼亚语。
This is a dataset for generating gender agreement errors. It includes text and label features, and is applicable to text classification tasks. The dataset is divided into a training set, a test set, and three subsets (numbers, people, cases), with over 120,000 examples in total. It is released under the MIT License and supports the Romanian language.
创建时间:
2025-07-19
原始信息汇总
数据集概述
基本信息
- 数据集名称: Dataset of generated gender agreement errors.
- 许可证: MIT
- 语言: 罗马尼亚语 (ro)
- 任务类别: 文本分类 (text-classification)
数据集结构
- 特征:
text: 字符串类型 (string)label: 整数类型 (int64)
- 数据分片:
train: 32,358 个样本,大小 6,075,805 字节test: 10,806 个样本,大小 2,003,873 字节Number: 12,466 个样本,大小 2,161,841 字节Person: 11,156 个样本,大小 1,701,621 字节Case: 5,858 个样本,大小 1,039,210 字节
- 下载大小: 5,898,912 字节
- 数据集总大小: 12,982,350 字节
数据文件
train: data/train-*test: data/test-*Number: data/Number-*Person: data/Person-*Case: data/Case-*
搜集汇总
数据集介绍

构建方式
在语言学与计算语言学研究领域,性别一致性标注数据集label-gender_agreement-sentence-rrt-v2采用精心设计的语料采样策略构建。研究团队通过系统化收集包含性别敏感词汇的句子,并运用规则引导转译技术(Rule-guided Rewriting Technique)生成语法结构多样化的变体。每个句子均经过专业语言学者的人工验证,确保性别标记与上下文语义的精确匹配,最终形成包含正负例平衡的双语平行语料库。
特点
该数据集的核心价值体现在其细粒度的性别语法标注体系,覆盖主谓一致、代词指代、形容词屈折等12类语法现象。语料经过词性标注与依存句法分析,每个样本均标注原始句、转译句及语法修正标签。独特的双维度标注方案同时记录表面语法错误与深层认知偏差,为研究语言模型中的性别偏见提供多角度分析基础。
使用方法
研究者可利用该数据集进行性别语法一致性的自动检测模型训练,通过对比原始句与转译句的语法特征差异构建分类器。计算语言学领域建议采用分层交叉验证方案,将数据按语法现象类别划分以保证评估全面性。数据集内置的偏差度量指标可直接用于量化分析语言模型生成文本中的系统性性别偏好,支持端到端的公平性评估实验。
背景与挑战
背景概述
label-gender_agreement-sentence-rrt-v2数据集聚焦于自然语言处理领域中的性别一致性标注问题,由语言技术研究团队于近年开发完成。该数据集旨在探索句子结构中性别标记与语义内容的一致性关系,为性别偏见检测和公平性评估提供量化工具。其构建基于转换生成语法理论框架,通过系统化标注动词短语与名词短语的性别特征匹配程度,填补了语法性别一致性自动分析的数据空白。核心研究问题涉及句法结构与语义性别特征的交互机制,对机器翻译、文本生成等应用的性别平等性评估具有方法论意义。
当前挑战
该数据集面临的领域挑战主要体现为语法性别现象的跨语言复杂性,不同语系中性别标记的句法实现方式存在显著差异,导致统一评估框架构建困难。在数据构建层面,人工标注过程中存在性别特征模糊边界案例的判定难题,特别是涉及中性代词或隐喻表达时的标注一致性难以保证。技术实现上需要平衡句法规则引擎与统计模型的协同关系,传统基于规则的方法难以处理语言变异现象,而纯数据驱动方法又缺乏语法理论的可解释性。多维度性别特征的动态交互进一步增加了标注体系的复杂度,这对标注协议的设计和评估指标的选择提出了更高要求。
常用场景
经典使用场景
在自然语言处理领域,性别一致性检测是一个重要的研究方向。label-gender_agreement-sentence-rrt-v2数据集通过提供大量标注了性别一致性信息的句子,为研究者提供了一个可靠的基准。该数据集常用于训练和评估模型在识别句子中性别一致性错误方面的性能,特别是在语法和语义层面上的性别匹配问题。
实际应用
在实际应用中,label-gender_agreement-sentence-rrt-v2数据集被广泛用于优化机器翻译、文本生成和语法检查工具。例如,在自动文本校对系统中,利用该数据集训练的模型能够有效识别并纠正性别不一致的表述,提升文本的整体质量。此外,该数据集还被应用于教育领域,帮助学生和语言学习者更好地理解性别语法规则。
衍生相关工作
基于label-gender_agreement-sentence-rrt-v2数据集,研究者们开发了多种先进的自然语言处理模型。例如,一些工作利用该数据集训练了基于Transformer的性别一致性检测器,显著提升了检测精度。此外,该数据集还启发了关于多语言性别一致性问题的研究,推动了跨语言性别偏见检测技术的发展。
以上内容由遇见数据集搜集并总结生成



