BeyondDialogue|角色扮演数据集|对话推理数据集
收藏Beyond Dialogue Role-playing Dataset
概述
Beyond Dialogue Role-Playing Dataset 是一个全面的角色扮演模型研究数据集,包含以下特点:
- 真实角色对话数据:从小说中提取的真实对话,包含角色之间丰富的上下文交互。
- 超越对话的对齐推理任务:除了对话,数据集还包括对齐推理任务,挑战模型进行复杂的推理,超越简单的对话交换。
数据文件结构
- 角色扮演数据
RPA_CN_SFT.json
和RPA_EN_SFT.json
:包含中英文的对齐角色扮演对话。RP_CN_SFT.json
和RP_EN_SFT.json
:包含中英文的非对齐角色扮演对话。
- 对齐任务
CSERP_CN_SFT.json
和CSERP_EN_SFT.json
:包含中英文的角色、风格、情感、关系和个性维度的对齐推理任务。
- 对话块
ChunkDialogues_CN
和ChunkDialogues_EN
:包含中英文的角色资料和对话,以及对话源块。
数据集统计
- 从123本中英文小说或剧本中提取了280个中文角色和31个英文角色。
- 总共获得了3,552个场景对话会话,包含23,247个对话轮次。
下载
可以通过以下代码从Hugging Face Datasets Hub下载数据集: bash git lfs install git clone https://huggingface.co/datasets/yuyouyu/BeyondDialogue
python from datasets import load_dataset
dataset = load_dataset("yuyouyu/BeyondDialogue")
引用
如果使用此数据集,请引用以下论文: bibtex @article{yu2024beyond, title = {BEYOND DIALOGUE: A Profile-Dialogue Alignment Framework Towards General Role-Playing Language Model}, author = {Yu, Yeyong and Yu, Runsheng and Wei, Haojie and Zhang, Zhanqiu and Qian, Quan}, year = {2024}, journal = {arXiv preprint arXiv:2408.10903} }

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
FAOSTAT Agricultural Data
FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。
www.fao.org 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录