five

jc-detoxio/lmsys-chat-1m

收藏
Hugging Face2025-07-02 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/jc-detoxio/lmsys-chat-1m
下载链接
链接失效反馈
官方服务:
资源简介:
LMSYS-Chat-1M是一个包含一百万个真实世界对话的大型数据集,这些对话涉及25种最先进的语言模型。数据集由210K个独特的IP地址在Vicuna demo和Chatbot Arena网站上从2023年4月至8月收集而成。每个样本包括一个对话ID、模型名称、对话文本、检测到的语言标签和OpenAI审查API标签。数据集还包括了隐私保护措施,如使用OpaquePrompts团队的技术来隐藏对话中的人名。该数据集可用于研究AI安全、内容审查、训练指令跟随模型、改进和评估LLM评估方法、模型选择和请求调度算法等。

LMSYS-Chat-1M is a large-scale dataset containing one million real-world conversations involving 25 state-of-the-art language models. The dataset was collected from 210K unique IP addresses on the Vicuna demo and Chatbot Arena website from April to August 2023. Each sample includes a conversation ID, model name, conversation text, detected language tag, and OpenAI moderation API tag. The dataset also includes privacy protection measures such as using the OpaquePrompts teams technology to redact names in conversations. The dataset can be used for researching AI safety, content moderation, training instruction-following models, improving and evaluating LLM evaluation methods, model selection, and request dispatching algorithms.
提供机构:
jc-detoxio
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作