five

CoSER|文学分析数据集|自然语言处理数据集

收藏
arXiv2025-02-13 更新2025-02-15 收录
文学分析
自然语言处理
下载链接:
https://github.com/Neph0s/CoSER
下载链接
链接失效反馈
资源简介:
CoSER数据集包含来自771部著名文学作品的17,966个角色的真实对话和丰富多样的数据类型,如对话场景、角色经验、内心思想等。该数据集通过LLM处理书籍内容而创建,旨在为角色扮演语言模型(RPLAs)的研究和应用提供高质量的原始数据。数据集涵盖了全面的角色描述、对话、场景背景、角色动机和情节概要,能够支撑角色扮演模型的训练、评估和检索。
提供机构:
复旦大学, StepFun, 约翰霍普金斯大学
创建时间:
2025-02-13
AI搜集汇总
数据集介绍
main_image_url
构建方式
CoSER数据集的构建基于771部著名书籍中的叙事和对话,通过基于LLM的管道进行处理。该数据集包含17,966个角色,涵盖了29,798个真实的对话,以及对话设置、角色经历和内心想法等多种数据类型。为了保持源的真实性和复杂性,CoSER从文学作品中提取了多角色的对话,而不是使用LLM合成的问答对。此外,CoSER还包含了情节摘要、角色经历和对话背景等全面的数据类型,支持各种用途,包括提示、检索、模型训练和评估。
特点
CoSER数据集的特点在于其真实性和全面性。它提供了来自著名书籍的真实的对话,这些对话具有现实世界的复杂性,同时还包含了丰富的数据类型,如对话设置、角色经历和内心想法等。CoSER还引入了“给定情境表演”(GCA)方法,该方法借鉴了表演方法,通过让LLM依次扮演多个角色来训练和评估角色扮演能力。此外,CoSER还开发了CoSER 8B和CoSER 70B等先进的开放角色扮演LLM,这些模型在多个RPLA基准测试中表现出色。
使用方法
使用CoSER数据集的方法主要包括数据准备、模型训练和评估。首先,使用LLM-based管道从书籍中提取情节、对话和角色数据。然后,使用GCA方法训练LLM模型,让模型依次扮演对话中的每个角色。在评估阶段,使用GCA评估方法,通过多智能体模拟和基于惩罚的LLM评判,对模型的表演能力进行全面评估。CoSER数据集、模型和评估脚本都可以在https://github.com/Neph0s/CoSER上获得。
背景与挑战
背景概述
在大型语言模型(LLM)的快速发展背景下,角色扮演语言代理(RPLA)作为一种新兴应用,受到了广泛关注。然而,模拟现有角色对于RPLA来说是一项具有挑战性的任务,主要因为缺乏真实角色数据集和细微的评估方法。CoSER数据集的创建旨在解决这一挑战。该数据集由复旦大学和StepFun的Xintao Wang等人于2025年2月13日发布,包含了来自771本著名书籍的17,966个角色的真实对话,以及各种数据类型,如对话设置、角色经历和内心想法。CoSER数据集的创建旨在为RPLA的训练、评估和检索提供高质量的、真实的数据,并在此基础上开发了CoSER 8B和CoSER 70B两个先进的开放角色扮演LLM模型。CoSER数据集的发布对相关领域产生了重要影响,为RPLA的研究和应用提供了有力支持。
当前挑战
CoSER数据集和相关模型在RPLA领域面临着一些挑战。首先,数据集的构建过程中需要解决如何从大量书籍中提取高质量、真实对话的问题。其次,如何评估LLM模拟复杂角色的能力也是一个挑战。传统的评估方法通常关注与预定义问题集的单轮互动,并依赖于LLM判断或多项选择题,但这些方法可能无法全面评估LLM的复杂角色扮演能力。CoSER数据集和相关模型在解决这些挑战方面取得了重要进展,但仍需进一步研究和改进。
常用场景
经典使用场景
CoSER数据集主要用于角色扮演语言代理(RPLA)的研究和开发,特别是对于已知角色的模拟。通过使用CoSER数据集,研究者可以训练和评估RPLA在模拟经典文学作品中的角色时的表现。CoSER数据集提供了丰富的对话数据,包括角色对话、情节摘要、角色经历和内心想法,这些数据类型有助于RPLA更真实地模拟人类的认知和行为过程。CoSER数据集的使用有助于推动RPLA技术的进步,并为角色扮演相关的应用提供数据支持。
衍生相关工作
CoSER数据集的发布推动了角色扮演语言代理(RPLA)领域的研究和开发。基于CoSER数据集,研究者开发了CoSER 8B和CoSER 70B等先进的开放角色扮演LLM。这些模型在CoSER数据集和其他基准测试中表现出色,为RPLA的研究和应用提供了新的思路和方法。此外,CoSER数据集还促进了基于给定情境的表演(GCA)方法的发展,这种方法为训练和评估角色扮演LLM提供了一种新的思路。
数据集最近研究
最新研究方向
CoSER数据集旨在解决角色扮演语言模型(RPLA)在模拟已有角色时面临的挑战。该数据集提供了来自771部著名书籍的17,966个角色的真实对话,以及丰富的数据类型,如对话设置、角色经历和内心想法。CoSER利用基于LLM的流程从叙事和对话中提取数据,并引入了给定情境表演(GCA)的概念,用于训练和评估RPLA。GCA要求LLM依次扮演多个角色,重现书中的场景。CoSER 8B和CoSER 70B是建立在LLaMA-3.1模型上的高级开放角色扮演LLM,展示了在角色扮演任务上的卓越性能。CoSER数据集及其模型的开发,为RPLA的研究和应用提供了新的方向,并为LLM在角色扮演方面的能力提升做出了重要贡献。
相关研究论文
  • 1
    CoSER: Coordinating LLM-Based Persona Simulation of Established Roles复旦大学, StepFun, 约翰霍普金斯大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Amazon电影评论数据集

该数据集包含从1997年8月至2012年10月期间,Amazon用户对253,059种产品的7,911,684条评论。数据集被添加了真实标签,这些标签是通过爬取/抓取Amazon.com获得的,用于分类产品。

github 收录

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录