five

RolandP/per-ma-to

收藏
Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/RolandP/per-ma-to
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为PERSONA HUB,是一个基于10亿个多样化人物角色驱动的合成数据生成项目。这些人物角色作为世界知识的分布式载体,能够利用大型语言模型(LLM)中封装的几乎所有视角,从而促进为各种场景大规模创建多样化的合成数据。数据集展示了PERSONA HUB在合成高质量数学和逻辑推理问题、指令(即用户提示)、知识丰富的文本、游戏NPC和工具(函数)等方面的用例。初始发布的合成数据样本包括:5万个数学问题、5万个逻辑推理问题、5万个指令、1万个知识丰富的文本、1万个游戏NPC和5千个工具。此外,还发布了PERSONA HUB的子集,包括20万个人物角色(早期预览版)和3.7亿个精英人物角色(2025年2月新增)。

This dataset, named PERSONA HUB, is a persona-driven synthetic data generation project based on 1 billion diverse personas. These personas act as distributed carriers of world knowledge, enabling the tapping into almost every perspective encapsulated within large language models (LLMs), thereby facilitating the creation of diverse synthetic data at scale for various scenarios. The dataset demonstrates PERSONA HUBs use cases in synthesizing high-quality mathematical and logical reasoning problems, instructions (i.e., user prompts), knowledge-rich texts, game NPCs and tools (functions). The initially released synthetic data samples include: 50,000 math problems, 50,000 logical reasoning problems, 50,000 instructions, 10,000 knowledge-rich texts, 10,000 game NPCs and 5,000 tools. Additionally, a subset of PERSONA HUB is released, including 200,000 personas (early preview) and 370,000,000 elite personas (added in Feb 2025).
提供机构:
RolandP
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作