five

RealChat

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/FreedomIntelligence/PlatoLM
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是由名为“苏格拉底”的用户模拟器生成的以人为中心的合成对话数据集,旨在为训练语言模型提供高质量的会话数据。该数据集用于训练ReaLM模型,重点关注系统代理的输出,同时忽略用户查询,确保在模型之间进行公平实验并保持一致的设置。规模上,我们从不同来源分层随机抽取了1万个数据集。该数据集的任务是对话建模以及语言模型的训练。

This dataset is a human-centric synthetic conversational dataset generated by a user simulator named "Socrates", designed to provide high-quality conversational data for language model training. It is utilized for training the ReaLM model, focusing on the outputs of system agents while disregarding user queries to ensure fair comparative experiments across models and consistent experimental configurations. In terms of scale, we conducted stratified random sampling of 10,000 conversational samples from diverse sources. The core tasks of this dataset cover conversational modeling and language model training.
提供机构:
Freedom Intelligence
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作