BeyondDialogue|角色扮演数据集|对话推理数据集
收藏Beyond Dialogue Role-playing Dataset
概述
Beyond Dialogue Role-Playing Dataset 是一个全面的角色扮演模型研究数据集,包含以下特点:
- 真实角色对话数据:从小说中提取的真实对话,包含角色之间丰富的上下文交互。
- 超越对话的对齐推理任务:除了对话,数据集还包括对齐推理任务,挑战模型进行复杂的推理,超越简单的对话交换。
数据文件结构
- 角色扮演数据
RPA_CN_SFT.json和RPA_EN_SFT.json:包含中英文的对齐角色扮演对话。RP_CN_SFT.json和RP_EN_SFT.json:包含中英文的非对齐角色扮演对话。
- 对齐任务
CSERP_CN_SFT.json和CSERP_EN_SFT.json:包含中英文的角色、风格、情感、关系和个性维度的对齐推理任务。
- 对话块
ChunkDialogues_CN和ChunkDialogues_EN:包含中英文的角色资料和对话,以及对话源块。
数据集统计
- 从123本中英文小说或剧本中提取了280个中文角色和31个英文角色。
- 总共获得了3,552个场景对话会话,包含23,247个对话轮次。
下载
可以通过以下代码从Hugging Face Datasets Hub下载数据集: bash git lfs install git clone https://huggingface.co/datasets/yuyouyu/BeyondDialogue
python from datasets import load_dataset
dataset = load_dataset("yuyouyu/BeyondDialogue")
引用
如果使用此数据集,请引用以下论文: bibtex @article{yu2024beyond, title = {BEYOND DIALOGUE: A Profile-Dialogue Alignment Framework Towards General Role-Playing Language Model}, author = {Yu, Yeyong and Yu, Runsheng and Wei, Haojie and Zhang, Zhanqiu and Qian, Quan}, year = {2024}, journal = {arXiv preprint arXiv:2408.10903} }

集装箱数据集
集装箱数据集,包含3500张1080p集装箱图像以及其编码区的xml标注
AI_Studio 收录
The MaizeGDB
The MaizeGDB(Maize Genetics and Genomics Database)是一个专门为玉米(Zea mays)基因组学研究提供数据和工具的在线资源。该数据库包含了玉米的基因组序列、基因注释、遗传图谱、突变体信息、表达数据、以及与玉米相关的文献和研究工具。MaizeGDB旨在支持玉米遗传学和基因组学的研究,为科学家提供了一个集成的平台来访问和分析玉米的遗传和基因组数据。
www.maizegdb.org 收录
DNS-Challenge
深度噪声抑制挑战数据集,包含干净的语音和噪声剪辑,用于训练和评估在有噪声环境下增强语音的模型。
huggingface 收录
HIT-UAV
HIT-UAV数据集包含2898张红外热成像图像,这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景,如学校、停车场、道路和游乐场,在不同的光照条件下,包括白天和夜晚。
github 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
