five

drodin/TextBooksPersonaHub

收藏
Hugging Face2024-07-21 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/drodin/TextBooksPersonaHub
下载链接
链接失效反馈
官方服务:
资源简介:
TextBooksPersonaHub数据集是proj-persona/PersonaHub数据集的扩展,使用Qwen2-72B-Instruct模型生成与特定人物相关的教科书式段落。每个条目包含原始人物描述和生成的内容。数据集旨在用于训练语言模型、研究人物驱动的内容生成以及探索教科书质量数据在语言模型训练中的有效性。

The TextBooksPersonaHub dataset is an extension of the proj-persona/PersonaHub dataset, created using the technique described in the paper Textbooks Are All You Need II. This dataset contains synthetically generated textbook-like passages tailored to specific personas, aimed at enhancing language model training with high-quality, diverse content. The dataset creation process involves extracting unique personas from the source dataset and using the Qwen2-72B-Instruct model to generate relevant textbook-like passages for each persona. Each entry contains the persona description and the generated content. This dataset is designed for training language models, researching persona-driven content generation, and exploring the effectiveness of textbook-quality data in language model training.
提供机构:
drodin
原始信息汇总

TextBooksPersonaHub 数据集概述

概述

TextBooksPersonaHub 数据集是 proj-persona/PersonaHub 数据集的扩展,基于论文 Textbooks Are All You Need II 中描述的技术创建。该数据集包含为特定角色量身定制的合成“教科书式”段落,旨在通过高质量、多样化的内容增强语言模型的训练。

数据集创建

源数据

原始角色来自 proj-persona/PersonaHub 数据集,特别是 instruction.jsonl 文件。

生成过程

  1. 从源数据集中提取独特的角色。
  2. 对于每个角色,使用 Qwen2-72B-Instruct 生成与其相关的短小、高质量的“教科书式”段落。
  3. 每个生成的段落包含与角色兴趣或领域相关的示例或练习。

数据集结构

每个条目包含:

  • persona: 原始角色描述
  • content: 生成的教科书式段落

用途

该数据集适用于:

  • 使用多样化、高质量的合成数据训练语言模型
  • 研究角色驱动的内容生成
  • 探索“教科书质量”数据在语言模型训练中的有效性

伦理考虑

  • 数据集包含合成生成的内容,不包含个人信息。
  • 使用生成的内容时应谨慎,因为它可能反映生成模型训练数据中的偏见。
  • 用户应意识到,尽管内容设计为教育性,但它是人工创建的,未经核实不应视为事实。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作