niizam/lmsys-arena-human-preference-winner-43k-unfiltered
收藏Hugging Face2024-05-15 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/niizam/lmsys-arena-human-preference-winner-43k-unfiltered
下载链接
链接失效反馈官方服务:
资源简介:
`lmsys-arena-human-preference-winner-43k-unfiltered`数据集包含43,000个样本,每个样本包含一个指令(prompt)和一个输出(winning response),这些数据来自真实世界的用户与LLM的对话。该数据集是从`lmsys-arena-human-preference-55k`数据集派生而来,并进行了数据结构的转换、胜者响应选择以及去除了不想要的词汇。
The `lmsys-arena-human-preference-winner-43k-unfiltered` dataset is derived from the `lmsys/lmsys-arena-human-preference-55k` dataset and contains 43,000 samples. Each sample includes an instruction (prompt) and a winning response from real-world user and LLM conversations. The dataset has undergone modifications such as data structure changes, winner selection based on user preference, and unfiltering by removing unwanted words. The dataset is licensed under the Apache 2.0 License.
提供机构:
niizam
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 文本生成
- 语言: 英语
- 数据集名称: LMSYS Chatbot Arena Human Preference Winner Unfiltered
- 数据集大小: 10K<n<100K
数据集描述
- 数据集名称: lmsys-arena-human-preference-winner-43k-unfiltered
- 数据集来源: 源自
lmsys/lmsys-arena-human-preference-55k数据集 - 数据集内容: 包含43,000个样本,每个样本包括一个指令(提示)和一个输出(获胜响应),这些样本来自真实世界的用户与LLM对话。
- 数据结构变化: 原始的
train.csv文件已转换为train_clean.jsonl文件,每行代表一个样本,格式为{ "instruction": prompt, "output": response }。 - 获胜响应选择: 每个样本的获胜响应(根据原始数据集中的用户偏好标签确定)已被选定并分配到
output字段。 - 数据处理: 数据集已去除不希望出现的词汇。
使用注意事项
- 免责声明: 数据集按原样提供,不附带任何保证。数据集可能包含偏见、不准确或不当内容。用户需负责审查和评估数据集对其预期用途的适用性。
- 引用信息: 如在研究或项目中使用此数据集,请引用原始数据集。



