niizam/lmsys-arena-human-preference-winner-43k-unfiltered

Name: niizam/lmsys-arena-human-preference-winner-43k-unfiltered
Creator: niizam
Published: 2024-05-15 22:31:53
License: 暂无描述

Hugging Face2024-05-15 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/niizam/lmsys-arena-human-preference-winner-43k-unfiltered

下载链接

链接失效反馈

官方服务：

资源简介：

`lmsys-arena-human-preference-winner-43k-unfiltered`数据集包含43,000个样本，每个样本包含一个指令（prompt）和一个输出（winning response），这些数据来自真实世界的用户与LLM的对话。该数据集是从`lmsys-arena-human-preference-55k`数据集派生而来，并进行了数据结构的转换、胜者响应选择以及去除了不想要的词汇。

The `lmsys-arena-human-preference-winner-43k-unfiltered` dataset is derived from the `lmsys/lmsys-arena-human-preference-55k` dataset and contains 43,000 samples. Each sample includes an instruction (prompt) and a winning response from real-world user and LLM conversations. The dataset has undergone modifications such as data structure changes, winner selection based on user preference, and unfiltering by removing unwanted words. The dataset is licensed under the Apache 2.0 License.

提供机构：

niizam

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 文本生成
语言: 英语
数据集名称: LMSYS Chatbot Arena Human Preference Winner Unfiltered
数据集大小: 10K<n<100K

数据集描述

数据集名称: lmsys-arena-human-preference-winner-43k-unfiltered
数据集来源: 源自 lmsys/lmsys-arena-human-preference-55k 数据集
数据集内容: 包含43,000个样本，每个样本包括一个指令（提示）和一个输出（获胜响应），这些样本来自真实世界的用户与LLM对话。
数据结构变化: 原始的 train.csv 文件已转换为 train_clean.jsonl 文件，每行代表一个样本，格式为 { "instruction": prompt, "output": response }。
获胜响应选择: 每个样本的获胜响应（根据原始数据集中的用户偏好标签确定）已被选定并分配到 output 字段。
数据处理: 数据集已去除不希望出现的词汇。

使用注意事项

免责声明: 数据集按原样提供，不附带任何保证。数据集可能包含偏见、不准确或不当内容。用户需负责审查和评估数据集对其预期用途的适用性。
引用信息: 如在研究或项目中使用此数据集，请引用原始数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集