Norquinal/OpenCAI

Name: Norquinal/OpenCAI
Creator: Norquinal
Published: 2024-06-21 22:08:31
License: 暂无描述

Hugging Face2024-06-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Norquinal/OpenCAI

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由从多个Discord RP粉丝服务器中抓取的角色扮演聊天对话组成。对话按天分割，假设大多数长篇角色扮演在一天内开始/继续并完成。原始数据集包含约14K样本，经过轻度过滤后减少到约10K样本，更严格的过滤减少到约5K样本，最严格的过滤减少到约4K样本。数据集经过处理，去除了表情、链接、反应、OOC、频道提及、用户提及等可能对微调有害的冗余内容。数据集处于持续改进状态，偶尔会更新更多的训练数据。

This dataset consists of role-playing chat conversations scraped from multiple Discord RP fan servers. Conversations are split by day, under the assumption that most long-form role-play sessions start, continue, and conclude within a single day. The original dataset contained approximately 14K samples; after light filtering, the sample count was reduced to around 10K, with stricter filtering bringing it down to ~5K, and the most stringent filtering resulting in ~4K samples. The dataset has been processed to remove redundant content that may be harmful to fine-tuning, including emojis, links, reactions, OOC (Out-of-Character) messages, channel mentions, and user mentions. The dataset is under continuous improvement, with occasional updates adding more training data.

提供机构：

Norquinal

原始信息汇总

数据集概述

该数据集包含从多个Discord角色扮演粉丝服务器中抓取的角色扮演聊天对话。对话按天分割，假设大多数长篇角色扮演在一天内开始、继续和完成。

数据集大小

原始数据集包含约14,000个样本。
轻度过滤后减少到约10,000个样本。
更严格的过滤后减少到约5,000个样本。
最严格的过滤后减少到约4,000个样本。

数据集文件

discord_logs_unsquashed.json：原始数据集，未压缩同一作者的连续消息。
discord_logs.json：原始数据集，默认选项。
discord_logs_two_users.json：原始数据集，限制为仅包含两个用户的对话。推荐使用此文件。
discord_logs_split_threads.json：原始数据集，按时间戳分割线程。
discord_logs_anonymized.json：原始数据集，用户名替换为随机替代品。
125_tokens_6_messages.json (最严格)：原始数据集，过滤后平均和中位数令牌长度为125，最小对话长度为6条消息。
80_tokens_6_messages.json (更严格)：原始数据集，过滤后平均和中位数令牌长度为80，最小对话长度为6条消息。
80_tokens_3_messages.json (轻度)：原始数据集，过滤后平均和中位数令牌长度为80，最小对话长度为3条消息。
opencai_rp.json：原始数据集，过滤后平均和中位数令牌长度为125，最小对话长度为6条消息，然后进行处理。包含角色描述、摘要、场景、聊天和流派标签。
opencai_rp_metharme.json：原始数据集，过滤后平均令牌长度为125，最小对话长度为6条消息，然后进行处理并转换为metharme格式。

属性解释

timestamp：交互日期，格式为YYYY-MM-DD。
type：交互来源，是频道 (GuildTextChat) 还是线程 (GuildPublicThread)。线程使用静态时间戳 1776-07-04 进行区分。
token_length：对话中所有消息的总令牌长度，使用 tiktoken 计算。
average_token_length：对话中所有消息的平均令牌长度。
median_token_length：对话中所有消息的中位数令牌长度。
conversations：用户之间的对话，表示为字典列表，每个字典表示一个单独的发言，包含两个键值对：message 表示发言本身，author 表示Discord用户名。

搜集汇总

数据集介绍

构建方式

在角色扮演对话数据集的构建领域，OpenCAI数据集通过系统化采集与处理流程展现了其严谨性。该数据集源自多个Discord平台的粉丝角色扮演服务器，原始对话记录经过自动化爬取与初步整理，形成了约1.4万条样本。随后，研究团队实施了多级过滤机制，逐步剔除表情符号、外部链接、非剧情内容及冗余信息，确保数据纯净度。对话按自然日进行切分，基于长篇幅角色扮演通常在单日内完成的假设，这一设计增强了时间维度的逻辑连贯性。数据集持续更新，通过纳入新服务器来源不断扩充样本规模，体现了动态优化的构建理念。

特点

OpenCAI数据集在角色扮演对话资源中呈现出多层次的结构化特性。其核心优势在于提供多种配置版本，包括保留原始连续消息的未压缩版本、仅限双用户对话的精选版本、按时间戳切分的线程版本以及匿名化处理版本，满足不同研究场景的需求。数据集附带丰富的元数据标注，如时间戳、对话类型、令牌长度统计指标，为量化分析提供基础。尤为突出的是，部分版本经过GPT-4o增强处理，添加了角色描述、情节摘要和类型标签等语义层信息。这种模块化设计使研究者能够根据模型微调或对话生成的特定要求，灵活选择数据子集。

使用方法

在自然语言生成模型训练的应用场景中，OpenCAI数据集提供了高度适配的使用路径。研究者可依据任务目标选择相应数据文件：若需进行双角色对话建模，推荐采用discord_logs_two_users.json版本；若关注对话结构分析，split_threads版本能清晰呈现线程演化脉络。对于模型微调任务，经过严格过滤的125_tokens_6_messages版本确保了对话质量与长度均衡，而opencai_rp_metharme版本已转换为特定对话格式，可直接适配相应训练框架。使用时应避免同时加载存在包含关系的过滤版本，如80_tokens_6_messages与80_tokens_3_messages，以防数据重复。元数据中的令牌统计指标可为数据采样策略提供量化参考。

背景与挑战

背景概述

在自然语言处理领域，角色扮演对话生成作为人机交互与创意写作的重要分支，长期以来依赖高质量、结构化的对话数据进行模型训练。Norquinal/OpenCAI数据集应运而生，由独立研究者于近期创建，旨在从Discord平台的多个粉丝社区服务器中采集并整理角色扮演聊天记录。该数据集的核心研究问题聚焦于如何构建一个大规模、多场景的长篇角色扮演对话语料库，以支持对话生成模型的微调与评估，从而推动开放域对话系统在叙事连贯性与角色一致性方面的进步。其通过精心设计的过滤与标注流程，为学术界与工业界提供了宝贵的资源，对促进生成式人工智能在娱乐与教育应用中的发展具有显著影响力。

当前挑战

该数据集致力于解决开放域角色扮演对话生成中的核心挑战，即如何确保对话在长期交互中保持角色性格的一致性与叙事逻辑的连贯性。构建过程中面临多重困难：原始数据源自非结构化的在线聊天环境，包含大量冗余信息如表情符号、外部链接及非角色对话内容，需通过复杂预处理进行清洗；同时，对话的时间跨度与参与者数量多变，要求设计有效的分割策略以提取高质量对话片段。此外，隐私保护要求对用户身份进行匿名化处理，而数据质量的持续优化也需平衡过滤严格性与语料多样性，这些因素共同构成了数据集构建的技术瓶颈。

常用场景

经典使用场景

在自然语言处理领域，角色扮演对话数据为对话生成模型的训练提供了独特资源。OpenCAI数据集通过收集Discord平台上的角色扮演聊天记录，构建了包含多用户互动、长文本序列的语料库。该数据集最经典的使用场景是微调大型语言模型，以提升其在开放域对话中的连贯性和角色一致性，尤其适用于模拟虚构叙事或沉浸式交互环境。研究者常利用其过滤后的子集，如两用户对话版本，来优化模型对特定对话风格的适应能力。

衍生相关工作

基于OpenCAI数据集，已衍生出多项经典研究工作。例如，部分研究利用其Metharme格式版本探索指令微调对角色扮演对话的影响，优化了模型对结构化提示的响应能力。其他工作则结合GPT-4o生成的元数据，开发了融合角色描述、场景摘要的增强训练框架，推动了对话生成中上下文感知技术的发展。这些衍生成果进一步拓展了数据集在可控文本生成与多模态叙事构建中的应用边界。

数据集最近研究