oeg/CelebA_Sent2Vect_Sp

Hugging Face2024-02-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/oeg/CelebA_Sent2Vect_Sp

下载链接

链接失效反馈

官方服务：

资源简介：

该语料库包含192050条描述CelebA数据集中人脸的句子，这些句子已通过Text2FaceGAN算法翻译成西班牙语。语料库经过预处理，去除了停用词、分隔符号和其他对训练无用的元素。使用Sent2vec库和该语料库进行训练，生成了一个用于西班牙语句子的编码器模型，特别是针对CelebA数据集的描述。语料库的每个条目由经过预处理的CelebA数据集中的人脸描述句子组成。

提供机构：

oeg

原始信息汇总

数据集概述

数据集名称

Sent2vec+CelebA training corpus in Spanish

数据集描述

包含192,050条描述CelebA数据集中人脸的句子。
数据预处理包括将CelebA数据集的说明文字翻译成西班牙语，并使用Sent2vec库进行训练，以获得西班牙语句子的编码器模型。

数据集用途

用于训练Sent2vec + CelebA模型，最终形成Sent2vec-CelebA-Sp模型。

数据集内容

每个条目包含经过预处理的CelebA数据集中人脸的描述性句子。

数据集格式

可下载的文件格式包括.txt和.csv。

数据集许可证

Apache License 2.0

引用信息

若使用此数据集，请引用发表在《Information Processing and Management》的论文： bib @article{YAURILOZANO2024103667, title = {Generative Adversarial Networks for text-to-face synthesis & generation: A quantitative–qualitative analysis of Natural Language Processing encoders for Spanish}, journal = {Information Processing & Management}, volume = {61}, number = {3}, pages = {103667}, year = {2024}, issn = {0306-4573}, doi = {https://doi.org/10.1016/j.ipm.2024.103667}, url = {https://www.sciencedirect.com/science/article/pii/S030645732400027X}, author = {Eduardo Yauri-Lozano and Manuel Castillo-Cara and Luis Orozco-Barbosa and Raúl García-Castro} }

数据集作者

Eduardo Yauri Lozano
Manuel Castillo-Cara
Raúl García-Castro

5,000+

优质数据集

54 个

任务类型

进入经典数据集