five

Character.AI对话提示数据集

收藏
arXiv2025-05-20 更新2025-05-21 收录
下载链接:
http://arxiv.org/abs/2505.13354v1
下载链接
链接失效反馈
官方服务:
资源简介:
Character.AI对话提示数据集是一个大规模的数据集,包含了2.1百万个英语对话提示,这些提示由大约100万个用户创建。该数据集主要用于研究Character.AI平台上不同粉丝群体的流行程度、跨越粉丝群体的文化主题以及问候语中权力与性别的动态关系。数据集的创建过程涉及使用基于Selenium的爬虫从Character.AI网站收集数据,包括用户信息和他们的聊天机器人信息。该数据集在研究人工智能与用户生成内容之间的新兴在线(准)社交互动形式方面具有重要价值。

The Character.AI Dialogue Prompt Dataset is a large-scale dataset containing 2.1 million English dialogue prompts created by approximately 1 million users. This dataset is primarily used to study the popularity of different fan communities on the Character.AI platform, cultural themes spanning these fan communities, and the dynamic interplay between power and gender in greetings. The dataset's creation process involved collecting data from the Character.AI website using Selenium-based crawlers, including user information and their chatbot details. This dataset holds significant research value for investigating emerging online (quasi-)social interaction forms between artificial intelligence and user-generated content.
提供机构:
纽约州立大学布法罗分校计算机科学与工程系, 人工智能与数据科学研究所
创建时间:
2025-05-20
搜集汇总
数据集介绍
main_image_url
构建方式
Character.AI对话提示数据集的构建基于对Character.AI平台上公开面向的社区构建聊天机器人的大规模分析。研究团队通过雪球采样方法,从平台首页推荐的用户开始,逐步扩展至其关注的用户,最终收集了约120万用户和超过300万个角色页面的数据。数据收集过程持续了六个月,高峰期动用了10台Amazon Web Services (AWS)的商用台式机进行爬取。数据集主要聚焦于角色的“问候语”(greetings),即用户与聊天机器人互动的初始提示,这些问候语是角色定义的核心部分,也是用户与AI模型交互的起点。
特点
Character.AI对话提示数据集的特点在于其规模庞大且多样化,涵盖了210万条英文问候语,涉及约100万用户。数据集不仅反映了用户创建聊天机器人的多样性,还揭示了不同粉丝圈(fandoms)的流行程度、跨粉丝圈的常见文化主题,以及问候语中权力与性别交织的动态。特别值得注意的是,数据集中的角色常常基于虚构或公众人物构建,用户通过这些角色探索复杂的社会关系、身份认同和心理健康话题。此外,数据集还包含了大量与青少年文化相关的内容,体现了平台用户群体的年轻化特点。
使用方法
该数据集的使用方法主要包括三个方面:首先,通过命名实体识别和网络聚类技术识别问候语中涉及的粉丝圈,分析不同虚构宇宙的流行程度;其次,利用BERTopic等主题建模方法挖掘问候语中的常见主题和文化隐喻;最后,通过依存句法分析探究用户与角色之间的权力和性别关系。研究者可以借助这些方法深入理解用户在生成AI环境下的社交互动模式,以及他们如何通过角色创建表达自我和探索社会议题。数据集特别适合用于计算社会科学、人机交互和数字文化研究领域。
背景与挑战
背景概述
Character.AI对话提示数据集由Owen Lee和Kenneth Joseph于2025年创建,旨在分析Character.AI平台上用户创建的公共聊天机器人。Character.AI是一个结合生成式AI和用户生成内容的社交媒体平台,用户可以在该平台上创建和互动各种角色机器人。该数据集包含210万条英文提示(即“问候语”),由约100万用户生成,涵盖了不同粉丝圈、文化主题以及性别与权力动态的交互模式。该数据集的研究背景聚焦于探索生成式AI与用户生成内容的交叉点,揭示了新兴的在线社交互动形式。
当前挑战
该数据集面临的主要挑战包括:1) 领域问题的挑战:如何准确识别和分析不同粉丝圈和文化主题的交互模式,尤其是在涉及虚构或真实人物时;2) 构建过程中的挑战:数据收集涉及大规模的爬取和清洗,需要处理大量非结构化文本,并确保数据隐私和伦理合规性。此外,数据集中包含的敏感内容(如心理健康和性别暴力主题)需要谨慎处理以避免潜在的社会负面影响。
常用场景
经典使用场景
Character.AI对话提示数据集作为大规模用户生成聊天机器人互动的代表性样本,其经典使用场景聚焦于探索生成式AI与用户创作内容的交汇点。该数据集通过210万条英文提示语料,为研究者提供了分析虚拟角色扮演、粉丝文化表达及在线准社会互动的独特窗口,尤其在动漫、游戏和跨媒体虚构宇宙等亚文化领域展现了丰富的交互模式。
衍生相关工作
该数据集已衍生出多个标志性研究方向:Laufer(2025)基于其开展的虚拟亲密关系性别政治分析,Smith等人(2025)开发的跨媒体角色一致性评估框架,以及Kim(2024)提出的AI协同创作伦理指南。在方法论层面,其创新的实体共现网络分析技术已被广泛应用于其他UGC平台的内容生态研究。
数据集最近研究
最新研究方向
Character.AI对话提示数据集的最新研究方向主要集中在生成式AI与用户生成内容的交叉领域,探索虚拟社交互动中的文化现象与性别权力动态。该数据集通过210万条英文对话提示的分析,揭示了动漫、游戏等亚文化圈层在平台上的盛行,以及用户通过AI角色扮演探索复杂社会议题(如性别认同、心理健康)的趋势。研究还发现用户创建的虚拟角色存在显著的性别刻板印象,女性化描述占比高达83%,且权力关系呈现不对称分布。这一现象与当前AI伦理研究热点相呼应,为理解生成式AI对社会关系的影响提供了实证基础。数据集的价值在于首次大规模量化了AI中介的准社交互动特征,对数字人类学和人机交互领域具有方法论创新意义。
相关研究论文
  • 1
    A large-scale analysis of public-facing, community-built chatbots on Character.AI纽约州立大学布法罗分校计算机科学与工程系, 人工智能与数据科学研究所 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作