oeg/CelebA_RoBERTa_Sp
收藏Hugging Face2024-02-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/oeg/CelebA_RoBERTa_Sp
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含250,000个条目,每个条目由一对西班牙语句子及其相似度值(范围0到1)组成。这些句子是对CelebA数据集中人脸的文本描述,并已从英语翻译成西班牙语。数据集用于训练sentence-transformer库,以提高RoBERTa-large-bne基础模型的效率。生成过程包括翻译、随机选择句子对并计算相似度值,最终保存为西班牙语文本和相似度值的组合。
该数据集包含250,000个条目,每个条目由一对西班牙语句子及其相似度值(范围0到1)组成。这些句子是对CelebA数据集中人脸的文本描述,并已从英语翻译成西班牙语。数据集用于训练sentence-transformer库,以提高RoBERTa-large-bne基础模型的效率。生成过程包括翻译、随机选择句子对并计算相似度值,最终保存为西班牙语文本和相似度值的组合。
提供机构:
oeg
原始信息汇总
数据集概述
数据集名称
- 名称: RoBERTa+CelebA training corpus in Spanish
- 别名: CelebA_RoBERTa_Sp
数据集属性
- 语言: 西班牙语 (es)
- 标签: CelebA, Spanish, celebFaces attributes, face detection, face recognition
- 任务类别: table-question-answering, question-answering, translation, text2text-generation
- 大小: 100M<n<1B
数据集内容
-
描述: 包含250,000个条目,每个条目由一对西班牙语句子及其相似度值(范围0至1)组成。这些句子是对CelebA数据集中人脸的文本描述,已从英语翻译成西班牙语。
-
生成过程:
- 首先将原始英语文本翻译成西班牙语。
- 实施算法随机选择两句并计算其相似度值,使用Spacy进行相似度计算。
- 由于Spacy和大多数相似度计算库仅支持英语,算法还包括从原始英语数据集中选择句子对。
- 最终训练集由西班牙语文本和相似度得分组成。
-
结构: 每个条目由三个部分组成,使用“|”分隔:
SentenceA | Sentence B | similarity value
使用许可
- 许可: Apache License 2.0
引用信息
- 引用: 若在工作中使用此数据集,请引用发表在《Information Processing and Management》的论文: bib @article{YAURILOZANO2024103667, title = {Generative Adversarial Networks for text-to-face synthesis & generation: A quantitative–qualitative analysis of Natural Language Processing encoders for Spanish}, journal = {Information Processing & Management}, volume = {61}, number = {3}, pages = {103667}, year = {2024}, doi = {https://doi.org/10.1016/j.ipm.2024.103667}, author = {Eduardo Yauri-Lozano and Manuel Castillo-Cara and Luis Orozco-Barbosa and Raúl García-Castro} }
数据集作者
- Eduardo Yauri Lozano
- Manuel Castillo-Cara
- Raúl García-Castro



