FinePersonas-v0.1|人物角色数据集|文本生成数据集
收藏FinePersonas 数据集概述
基本信息
- 语言: 英语
- 许可证: llama3
- 大小: 10M < n < 100M
- 任务类别: 文本生成
- 数据集名称: FinePersonas
数据集结构
特征
- id: 字符串类型
- persona: 字符串类型
- model_name_embeddings: 字符串类型
- embedding: 浮点数序列
- labels: 字符串类型
分割
- train: 包含 21,071,228 个样本,总大小为 179,098,544,944 字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:
标签
- synthetic
- distilabel
数据集描述
FinePersonas 是一个包含 21,071,228 个详细人物角色的开放数据集,适用于多样化和可控的合成文本生成。该数据集基于 HuggingFaceFW/fineweb-edu 数据集中的网页内容生成,因此存在较强的教育与科学领域偏见。
人物角色定义
人物角色是个人特征、背景和目标的详细描述,旨在反映多样化的身份和经历。每个角色代表一组独特的属性,可以丰富合成数据。
使用案例
- 生成指令: 模拟用户向助手或基于LLM的应用程序提出的典型请求,生成多样化和领域特定的指令。
- 生成多样文本: 使用特定人物角色的声音、风格和偏好生成文本(如博客文章、评论、社交媒体等)。
- 生成特定问题: 生成特定人物角色或领域的问题,以改进LLM的能力。
- 图像生成: 基于人物角色描述生成图像。
示例
- 教育, 儿童发展, 蒙特梭利: 对儿童发展和动手学习活动感兴趣的幼儿园或蒙特梭利教师,可能专注于早期儿童教育和实际生活技能。
- 技术, 研究, 人工智能: 计算机科学学生或讲师,专长于逻辑编程和人工智能,可能专注于Prolog编程语言。
- 环境, 科学, 保护: 专注于海洋碳封存及其对全球温度波动影响的环境科学家或气候变化研究人员。
获取数据
- 100K样本数据集: 提供了一个100K样本数据集,用于快速处理和识别有趣的集群。
- 下载方式: 使用
huggingface_hub[hf_transfer]
和HF_HUB_ENABLE_HF_TRANSFER=1
环境变量进行快速下载。
扩展人物角色
如果现有的人物角色不符合需求,可以使用 persona-to-persona
管道生成相关的新人物角色。

MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录
ChemBL
ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。
www.ebi.ac.uk 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
网易云音乐数据集
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。
github 收录