somosnlp/es-inclusive-language
收藏Hugging Face2024-05-14 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp/es-inclusive-language
下载链接
链接失效反馈官方服务:
资源简介:
Es-Inclusive-Language数据集旨在提供西班牙语中非包容性语言的包容性改写,以促进性别平等和减少不平等。数据集包含4196行数据,每行包含非包容性文本和其对应的包容性改写文本,并标注了翻译难度和数据来源。数据集主要用于训练文本生成模型,特别是将西班牙语文本改写为包容性语言的模型。
提供机构:
somosnlp
原始信息汇总
数据集概述
基本信息
- 名称: Es-Inclusive-Language
- 语言: 西班牙语 (
es-ES,es-AR,es-MX,es-CR,es-CL) - 大小: 1K<n<10K
- 任务类别: text2text-generation
- 许可证: cc-by-nc-sa-4.0
数据集结构
- 数据文件配置:
- 训练集:
data/train-* - 验证集:
data/validation-* - 测试集:
data/test-*
- 训练集:
- 数据集特征:
- gender_exclusive (输入): 非包容性语言文本
- gender_inclusive (目标): 包容性语言文本
- difficulty: 翻译难度类别
- origin: 数据来源
数据集详细信息
- 分割详情:
- 训练集: 3212个样本,630817字节
- 验证集: 721个样本,139222字节
- 测试集: 263个样本,50611字节
- 下载大小: 397549字节
- 数据集大小: 820650字节
数据集用途
- 直接用途: 用于微调大型语言模型(LLMs)以执行文本到文本生成任务,特别是训练模型以使用包容性语言重写西班牙语文本。
- 范围外用途: 该数据集专门设计用于将西班牙语文本翻译为使用包容性语言的西班牙语文本。使用该数据集进行无关任务被视为超出范围。该数据集不可用于商业目的,仅限于研究或教育用途。
数据集创建
- 数据收集和处理:
- 主要来源: es_neutral
- 手动生成数据: 基于不同西班牙语国家的官方指南
- 数据增强: 使用各种提示和Few-Shot学习技术
数据集标签描述
- 难度标签: 描述了翻译过程中的不同难度级别,如无需更改、复杂复数、中性复数等。
- 来源标签: 数据根据其来源进行标记,包括官方指南、GPT-3.5生成数据等。



