five

CoSER Dataset

收藏
github2025-03-14 更新2025-02-17 收录
下载链接:
https://github.com/Neph0s/CoSER
下载链接
链接失效反馈
官方服务:
资源简介:
CoSER数据集是一个用于协调基于LLM的角色模拟的数据集,包含了从《哈利·波特》系列和《冰与火之歌》系列中提取的示例数据。此外,还提供了一个名为CoSER-Books-Gutenberg的数据集,包含了81本从Project Gutenberg精选的经典书籍。

The CoSER dataset is a dedicated dataset for coordinating large language model (LLM)-based role-play simulations, which contains sample data extracted from the *Harry Potter* and *A Song of Ice and Fire* series. In addition, a supplementary dataset named CoSER-Books-Gutenberg is also provided, including 81 classic books selected from Project Gutenberg.
创建时间:
2025-02-12
原始信息汇总

CoSER数据集概述

数据集简介

CoSER数据集是用于支持“CoSER: Coordinating LLM-Based Persona Simulation of Established Roles”研究的官方数据集。该数据集目前正处于内部安全审查阶段,完整的数据集和模型预计将在2025年2月发布。

数据集内容

  • 数据集包含来自《哈利·波特》系列和《冰与火之歌》系列的一些示例数据,存储在example_data/目录下。
  • 数据集的完整版本因安全审查原因尚未公开。

使用说明

  • 为了帮助理解数据集的实现,已发布未组织的代码,组织化的代码将在2025年2月准备好。
  • 安装依赖:通过执行pip install -r requirements.txt安装必要的依赖。
  • 配置API密钥和基础URL:在config.json文件中设置LLM的api_keybase_url

数据构建

  • 若要为特定兴趣的书籍构建数据,需要进入data_construction目录并运行python process.py

数据评估

  • 使用GCA(Given-Circumtance Acting)方法进行评估,可以通过执行python gca_evaluation/eval_reproduce.py来进行。
搜集汇总
数据集介绍
main_image_url
构建方式
CoSER数据集的构建涉及从特定文本中提取角色和情境信息,进而模拟既定角色的语言行为。目前,数据集正在内部审查中,以确保安全性和可靠性。审查完毕后,预计于2025年2月发布完整数据集和模型。当前,已提供部分示例数据,源自《哈利·波特》系列和《冰与火之歌》系列,以及数据构建的示例代码,用户可根据兴趣自行构建数据。
特点
CoSER数据集的特点在于其专注于模拟既定角色的语言行为,提供了一种新的角色模拟方法。数据集的安全性审查保证了其应用的安全性和可靠性。此外,数据集的构建方法允许用户自定义书籍来源,增加了数据的多样性和适用性。
使用方法
使用CoSER数据集,用户首先需要配置LLM的api_key和base_url在config.json文件中。随后,安装必要的依赖项,并可通过运行提供的脚本构建数据集。数据集的评价可通过GCA(Given-Circumtance Acting)方法进行,具体执行相关脚本即可完成评估过程。完整的数据集和模型预计将在2025年2月审查通过后对外发布。
背景与挑战
背景概述
CoSER数据集,即“Coordinating LLM-Based Persona Simulation of Established Roles”,是一项专注于利用大型语言模型(LLM)模拟特定角色的数据集。该数据集由相关研究人员和机构开发,旨在通过模拟经典文学作品中的角色,推动自然语言处理和角色模拟技术的发展。创建于近期,具体创建时间尚未明确,但预计将在2025年二月完成安全审查后公开完整数据集。该数据集的核心研究问题是如何协调LLM以模拟已确立的角色,对自然语言处理、角色模拟以及文学研究领域产生了显著影响。
当前挑战
CoSER数据集在构建过程中面临的主要挑战包括:1) 如何确保LLM模拟的角色行为与原文学作品中的角色特征相吻合;2) 如何处理数据集的安全性问题,避免不当使用导致的潜在风险。此外,构建过程中还需解决如何高效地从文学作品中提取角色特征,以及如何评价和验证模拟结果的准确性等实际问题。
常用场景
经典使用场景
在自然语言处理领域,模仿学习是构建人工智能模型的重要方法之一。CoSER数据集为此提供了强有力的支持,其经典使用场景在于模拟既定角色的语言行为,以训练大型语言模型更好地理解和生成符合特定角色的文本。
解决学术问题
CoSER数据集解决了学术研究中如何高效模拟特定角色语言表达的问题,对于提升语言模型在角色扮演任务中的表现具有显著意义。它通过提供丰富的角色相关文本数据,使得研究者在进行模型训练时能够更精确地定位到角色特征,进而提高模型的生成质量和准确性。
衍生相关工作
CoSER数据集的发布促进了相关领域的研究,如角色模拟、对话系统、自然语言生成等,衍生出了一系列经典工作。这些研究不仅基于CoSER数据集对模型进行了改进,还扩展了数据集的应用范围,推动了整个领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作