personas

Hugging Face2025-09-11 更新2025-09-12 收录

下载链接：

https://huggingface.co/datasets/latam-gpt/personas

下载链接

链接失效反馈

官方服务：

资源简介：

Filtered Spanish Personas Dataset 是一个包含17,742个高质量西班牙语角色的数据集。这些角色是通过使用 'latam-gpt/red_pajama_es_hq' 数据集中的文档，并采用文献 ['Scaling Synthetic Data Creation with 1,000,000,000 Personas'] 中描述的方法生成和过滤得到的。数据集通过MinHash去重和基于嵌入相似度的过滤进行了优化。

创建时间：

2025-09-11

原始信息汇总

数据集概述

基本信息

语言：西班牙语 (es)
许可证：Apache 2.0
标签：personas、synthetic-data、text-generation、spanish
规模：10K<n<100K

数据集描述

该数据集包含17,742个高质量的西班牙语personas，采用"Scaling Synthetic Data Creation with 1,000,000,000 Personas"中的方法生成和过滤，使用latam-gpt/red_pajama_es_hq文档生成。

过滤流程

MinHash去重
- 参数：128个哈希函数，0.9相似度阈值
- N-gram大小：1
嵌入相似性过滤
- 模型：sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
- 相似度阈值：0.85
- 使用FAISS进行高效相似性搜索

生成详情

模型：Qwen/Qwen3-30B-A3B-Instruct-2507
温度：0.3
原始数据集大小：100000
过滤后数据集大小：17742

使用方式

python from datasets import load_dataset dataset = load_dataset("latam-gpt/personas")

引用

原始方法

bibtex @article{ge2024scaling, title={Scaling Synthetic Data Creation with 1,000,000,000 Personas}, author={Ge, Tao and Chan, Xin and Wang, Xiaoyang and Yu, Dian and Mi, Haitao and Yu, Dong}, journal={arXiv preprint arXiv:2406.20094}, year={2024} }

本实现

bibtex @misc{latam-gpt-personas, title={Spanish Personas}, author={LatamGPT Team}, howpublished={url{https://huggingface.co/datasets/latam-gpt/personas}}, year={2025}, note={Implementation of persona generation and filtering methodology for Spanish language} }

致谢

该数据集是LatamGPT项目的一部分。

特别感谢：

原始persona生成方法的作者
本流程中使用的开源工具贡献者（vLLM、sentence-transformers、FAISS、HuggingFace）

许可证

Apache 2.0许可证。

搜集汇总

数据集介绍

构建方式

在自然语言生成领域，高质量合成数据的构建对模型训练至关重要。该数据集基于latam-gpt/red_pajama_es_hq文档，采用Qwen/Qwen3-30B-A3B-Instruct-2507模型以0.3温度参数生成初始10万条西班牙语人物描述，随后通过双层过滤流程：首先运用MinHash去重算法，配置128个哈希函数和0.9相似度阈值进行n-gram级别去重；继而采用多语言句子变换模型计算嵌入向量相似度，借助FAISS系统以0.85阈值筛选，最终获得17,742条高质量人物数据。

特点

该数据集作为西班牙语合成人物描述的专业资源，具有显著的语种特异性和质量优越性。其核心特征体现在经过严格的多阶段过滤机制，确保每条人物描述均具备高度独特性和语义丰富性。数据集全面覆盖多样化的人物属性和背景设定，为西班牙语自然语言处理任务提供精准的语义表示。特别值得注意的是，所有数据均通过多语言句子嵌入模型进行语义级验证，保证与真实人物描述分布的一致性，为生成模型训练提供可靠的数据基础。

使用方法

研究人员可通过HuggingFace数据集库直接加载该资源，使用标准接口调用load_dataset函数即可获取完整数据。该数据集主要适用于西班牙语文本生成模型的训练与评估，特别是对话系统和个性化生成任务。使用者可将人物描述作为条件输入，训练模型生成符合特定人物特征的文本。此外，数据集还可用于跨语言人物表示学习研究，通过对比不同语言的人物描述模式，探索文化特异性对语言生成的影响机制。

背景与挑战

背景概述

西班牙语人物角色数据集由LatamGPT团队于2025年构建，基于Ge等人提出的十亿级人物角色生成方法论。该数据集源自高质量西班牙语文本库red_pajama_es_hq，采用Qwen3-30B大模型生成初始数据，通过MinHash去重和嵌入相似性过滤获得17,742条高质量人物设定。作为首个大规模西班牙语合成人物数据集，其为拉丁美洲语言模型训练提供了重要的文化语境支撑，显著提升了西语对话系统的个性化生成能力。

当前挑战

该数据集致力于解决西语自然语言处理中个性化对话生成的数据稀缺问题，其核心挑战在于保持人物角色的一致性与文化适配性。构建过程中面临多重技术挑战：需通过128维MinHash函数实现0.9相似度阈值的去重处理，采用多语言句向量模型进行0.85相似度过滤，并利用FAISS索引实现高效近邻搜索。原始生成的10万条数据经严格筛选后仅保留17.74%，体现了合成数据质量控制的复杂性。

常用场景

经典使用场景

在自然语言生成领域，西班牙语合成人物数据集为对话系统与个性化文本生成提供了重要支撑。该数据集通过高质量人物画像构建，使研究人员能够训练模型生成具有一致性格特征的对话内容，显著提升了西班牙语对话系统的拟人化水平与上下文连贯性。

衍生相关工作

基于该数据集衍生的经典工作包括跨语言人物属性迁移框架、西班牙语对话状态跟踪模型以及个性化推荐系统优化研究。这些工作不仅扩展了原始方法论的应用边界，还为拉丁美洲地区的语言技术发展提供了重要推动力，促进了多语言人工智能生态的构建。

数据集最近研究