UltraFeedback-chinese
收藏Opencsg2025-01-13 更新2025-01-18 收录
下载链接:
https://www.opencsg.com/datasets/MagicAI/UltraFeedback-chinese
下载链接
链接失效反馈官方服务:
资源简介:
UltraFeedback-Chinese 是根据UltraFeedback数据集的构建方法制定的中文版本,专为训练强大的奖励模型和批评模型而设计。该数据集支持PPO(Proximal Policy Optimization)和DPO(Direct Preference Optimization)两种训练方式。UltraFeedback-Chinese 在数据格式上与原始的UltraFeedback保持一致,同样包含对指令遵循、真实性、诚实性和有用性这四个方面的细致评分,评分由深度学习模型deepseek-v3生成。
创建时间:
2025-01-13



