five

oeg/CelebA_RoBERTa_Sp

收藏
Hugging Face2024-02-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/oeg/CelebA_RoBERTa_Sp
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含250,000个条目,每个条目由一对西班牙语句子及其相似度值(范围0到1)组成。这些句子是对CelebA数据集中人脸的文本描述,并已从英语翻译成西班牙语。数据集用于训练sentence-transformer库,以提高RoBERTa-large-bne基础模型的效率。生成过程包括翻译、随机选择句子对并计算相似度值,最终保存为西班牙语文本和相似度值的组合。

该数据集包含250,000个条目,每个条目由一对西班牙语句子及其相似度值(范围0到1)组成。这些句子是对CelebA数据集中人脸的文本描述,并已从英语翻译成西班牙语。数据集用于训练sentence-transformer库,以提高RoBERTa-large-bne基础模型的效率。生成过程包括翻译、随机选择句子对并计算相似度值,最终保存为西班牙语文本和相似度值的组合。
提供机构:
oeg
原始信息汇总

数据集概述

数据集名称

  • 名称: RoBERTa+CelebA training corpus in Spanish
  • 别名: CelebA_RoBERTa_Sp

数据集属性

  • 语言: 西班牙语 (es)
  • 标签: CelebA, Spanish, celebFaces attributes, face detection, face recognition
  • 任务类别: table-question-answering, question-answering, translation, text2text-generation
  • 大小: 100M<n<1B

数据集内容

  • 描述: 包含250,000个条目,每个条目由一对西班牙语句子及其相似度值(范围0至1)组成。这些句子是对CelebA数据集中人脸的文本描述,已从英语翻译成西班牙语。

  • 生成过程:

    • 首先将原始英语文本翻译成西班牙语。
    • 实施算法随机选择两句并计算其相似度值,使用Spacy进行相似度计算。
    • 由于Spacy和大多数相似度计算库仅支持英语,算法还包括从原始英语数据集中选择句子对。
    • 最终训练集由西班牙语文本和相似度得分组成。
  • 结构: 每个条目由三个部分组成,使用“|”分隔:

    SentenceA | Sentence B | similarity value

使用许可

  • 许可: Apache License 2.0

引用信息

  • 引用: 若在工作中使用此数据集,请引用发表在《Information Processing and Management》的论文: bib @article{YAURILOZANO2024103667, title = {Generative Adversarial Networks for text-to-face synthesis & generation: A quantitative–qualitative analysis of Natural Language Processing encoders for Spanish}, journal = {Information Processing & Management}, volume = {61}, number = {3}, pages = {103667}, year = {2024}, doi = {https://doi.org/10.1016/j.ipm.2024.103667}, author = {Eduardo Yauri-Lozano and Manuel Castillo-Cara and Luis Orozco-Barbosa and Raúl García-Castro} }

数据集作者

  • Eduardo Yauri Lozano
  • Manuel Castillo-Cara
  • Raúl García-Castro
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作