RoleAgent/RoleAgentBench|角色扮演数据集|自然语言处理数据集
收藏数据集概述
基本信息
- 许可证: Apache 2.0
- 任务类别:
- 问答
- 摘要生成
- 语言:
- 中文
- 英文
- 标签: Role-Playing
配置详情
- 初始化:
- 数据文件:
*/profiles/*.jsonl
- 数据文件:
- 检索:
- 数据文件:
*/retrieval.json
- 数据文件:
- 摘要:
- 数据文件:
*/summary.json
- 数据文件:
- 自我知识:
- 数据文件:
*/self_knowledge.json
- 数据文件:
- 反应:
- 数据文件:
*/reaction.json
- 数据文件:
- 通用响应:
- 数据文件:
*/general_response.json
- 数据文件:
数据集内容
- 角色数量: 128个角色
- 剧本数量: 5个中文剧本和20个英文剧本
- 评估任务:
- 摘要生成: 评估生成摘要的实体密度和实体召回率。
- 自我知识: 测试角色代理识别其属性的能力。
- 反应: 测试角色代理对不同角色的反应能力。
- 通用响应: 测试角色代理的一般问答能力。
剧本列表
- 英文剧本:
- 《Friends》, 《Harry Potter》, 《Merchant of Venice》, 《Sherlock》, 《The Big Bang Theory》, 等20个剧本。
- 中文剧本:
- 《家有儿女》, 《九品芝麻官》, 《狂飙》, 《唐人街探案》, 《西游记》。
数据结构
- info.json: 存储数据集结构和每个剧本的信息。
- raw: 剧本的原始数据。
- profiles: 不同角色的观察数据,用于初始化。
- 其他文件:
retrieval.json
summary.json
self_knowledge.json
reaction.json
general_response.json
下载方式
-
使用
git lfs
进行下载: bash git lfs install git clone https://huggingface.co/datasets/RoleAgent/RoleAgentBench -
使用
datasets
库加载数据集: python from datasets import load_dataset dataset = load_dataset("RoleAgent/RoleAgentBench")

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
Coffee_Shop_Sales
该数据集包含了咖啡店的详细交易信息,包括交易ID、日期、时间、店铺编号、位置、产品类别、类型、名称、价格、月份、日期、星期和小时等属性。数据集用于分析咖啡店的销售情况,如收入和交易量的变化趋势。
github 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录