oeg/CelebA_RoBERTa_Sp

Hugging Face2024-02-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/oeg/CelebA_RoBERTa_Sp

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含250,000个条目，每个条目由一对西班牙语句子及其相似度值（范围0到1）组成。这些句子是对CelebA数据集中人脸的文本描述，并已从英语翻译成西班牙语。数据集用于训练sentence-transformer库，以提高RoBERTa-large-bne基础模型的效率。生成过程包括翻译、随机选择句子对并计算相似度值，最终保存为西班牙语文本和相似度值的组合。

提供机构：

oeg

原始信息汇总

数据集概述

数据集名称

名称: RoBERTa+CelebA training corpus in Spanish
别名: CelebA_RoBERTa_Sp

数据集属性

语言: 西班牙语 (es)
标签: CelebA, Spanish, celebFaces attributes, face detection, face recognition
任务类别: table-question-answering, question-answering, translation, text2text-generation
大小: 100M<n<1B

数据集内容

描述: 包含250,000个条目，每个条目由一对西班牙语句子及其相似度值（范围0至1）组成。这些句子是对CelebA数据集中人脸的文本描述，已从英语翻译成西班牙语。
生成过程:
- 首先将原始英语文本翻译成西班牙语。
- 实施算法随机选择两句并计算其相似度值，使用Spacy进行相似度计算。
- 由于Spacy和大多数相似度计算库仅支持英语，算法还包括从原始英语数据集中选择句子对。
- 最终训练集由西班牙语文本和相似度得分组成。
结构: 每个条目由三个部分组成，使用“|”分隔：

SentenceA | Sentence B | similarity value

使用许可

许可: Apache License 2.0

引用信息

引用: 若在工作中使用此数据集，请引用发表在《Information Processing and Management》的论文： bib @article{YAURILOZANO2024103667, title = {Generative Adversarial Networks for text-to-face synthesis & generation: A quantitative–qualitative analysis of Natural Language Processing encoders for Spanish}, journal = {Information Processing & Management}, volume = {61}, number = {3}, pages = {103667}, year = {2024}, doi = {https://doi.org/10.1016/j.ipm.2024.103667}, author = {Eduardo Yauri-Lozano and Manuel Castillo-Cara and Luis Orozco-Barbosa and Raúl García-Castro} }

数据集作者

Eduardo Yauri Lozano
Manuel Castillo-Cara
Raúl García-Castro

5,000+

优质数据集

54 个

任务类型

进入经典数据集