five

niizam/lmsys-arena-human-preference-winner-43k-unfiltered

收藏
Hugging Face2024-05-15 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/niizam/lmsys-arena-human-preference-winner-43k-unfiltered
下载链接
链接失效反馈
官方服务:
资源简介:
`lmsys-arena-human-preference-winner-43k-unfiltered`数据集包含43,000个样本,每个样本包含一个指令(prompt)和一个输出(winning response),这些数据来自真实世界的用户与LLM的对话。该数据集是从`lmsys-arena-human-preference-55k`数据集派生而来,并进行了数据结构的转换、胜者响应选择以及去除了不想要的词汇。

The `lmsys-arena-human-preference-winner-43k-unfiltered` dataset is derived from the `lmsys/lmsys-arena-human-preference-55k` dataset and contains 43,000 samples. Each sample includes an instruction (prompt) and a winning response from real-world user and LLM conversations. The dataset has undergone modifications such as data structure changes, winner selection based on user preference, and unfiltering by removing unwanted words. The dataset is licensed under the Apache 2.0 License.
提供机构:
niizam
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别: 文本生成
  • 语言: 英语
  • 数据集名称: LMSYS Chatbot Arena Human Preference Winner Unfiltered
  • 数据集大小: 10K<n<100K

数据集描述

  • 数据集名称: lmsys-arena-human-preference-winner-43k-unfiltered
  • 数据集来源: 源自 lmsys/lmsys-arena-human-preference-55k 数据集
  • 数据集内容: 包含43,000个样本,每个样本包括一个指令(提示)和一个输出(获胜响应),这些样本来自真实世界的用户与LLM对话。
  • 数据结构变化: 原始的 train.csv 文件已转换为 train_clean.jsonl 文件,每行代表一个样本,格式为 { "instruction": prompt, "output": response }
  • 获胜响应选择: 每个样本的获胜响应(根据原始数据集中的用户偏好标签确定)已被选定并分配到 output 字段。
  • 数据处理: 数据集已去除不希望出现的词汇。

使用注意事项

  • 免责声明: 数据集按原样提供,不附带任何保证。数据集可能包含偏见、不准确或不当内容。用户需负责审查和评估数据集对其预期用途的适用性。
  • 引用信息: 如在研究或项目中使用此数据集,请引用原始数据集。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作