somosnlp/es-inclusive-language

Name: somosnlp/es-inclusive-language
Creator: somosnlp
Published: 2024-05-14 15:41:39
License: 暂无描述

Hugging Face2024-05-14 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/somosnlp/es-inclusive-language

下载链接

链接失效反馈

官方服务：

资源简介：

Es-Inclusive-Language数据集旨在提供西班牙语中非包容性语言的包容性改写，以促进性别平等和减少不平等。数据集包含4196行数据，每行包含非包容性文本和其对应的包容性改写文本，并标注了翻译难度和数据来源。数据集主要用于训练文本生成模型，特别是将西班牙语文本改写为包容性语言的模型。

提供机构：

somosnlp

原始信息汇总

数据文件配置:
- 训练集: data/train-*
- 验证集: data/validation-*
- 测试集: data/test-*
数据集特征:
- gender_exclusive (输入): 非包容性语言文本
- gender_inclusive (目标): 包容性语言文本
- difficulty: 翻译难度类别
- origin: 数据来源

分割详情:
- 训练集: 3212个样本，630817字节
- 验证集: 721个样本，139222字节
- 测试集: 263个样本，50611字节
下载大小: 397549字节
数据集大小: 820650字节

直接用途: 用于微调大型语言模型（LLMs）以执行文本到文本生成任务，特别是训练模型以使用包容性语言重写西班牙语文本。
范围外用途: 该数据集专门设计用于将西班牙语文本翻译为使用包容性语言的西班牙语文本。使用该数据集进行无关任务被视为超出范围。该数据集不可用于商业目的，仅限于研究或教育用途。

数据收集和处理:
- 主要来源: es_neutral
- 手动生成数据: 基于不同西班牙语国家的官方指南
- 数据增强: 使用各种提示和Few-Shot学习技术

5,000+

优质数据集

54 个

任务类型

进入经典数据集