philschmid/slimorca-dedup-chatml
收藏SlimOrca Dedup 数据集概述
基本信息
- 许可证: MIT
- 任务类别:
- 文本分类
- 问答
- 文本生成
- 标签:
- 代码
- 艺术
- 音乐
- 法律
- 金融
- 生物学
- 化学
- 名称: SlimOrca Dedup
- 大小类别: 100K<n<1M
数据集描述
- 概述: SlimOrca Dedup 是一个去重且未经筛选的 SlimOrca 数据集子集,排除了 RLHF 实例,包含 363k 个唯一示例。
- 关键特性:
- 移除 RLHF 实例。
- 使用 minhash 和 Jaccard 相似性技术进行去重。
数据集格式
- 基本结构: 使用基本的 sharegpt 格式。
- 消息格式:
- "from": 字符串,表示消息发送者,可能的发送者有 "system", "human", 和 "gpt"。
- "value": 字符串,包含发送者的消息或指令。
- 消息角色:
- System: 系统提供任务的指令或指南。
- Human: 人类提供 AI 模型响应的提示或查询。
- GPT: 语言模型生成基于人类提供的提示或查询的响应或内容。
引用
bibtex @misc{SlimOrcaDedup, title = {SlimOrca Dedup: A Deduplicated Subset of SlimOrca}, author = {Wing Lian and Guan Wang and Bleys Goodson and Eugene Pentland and Austin Cook and Chanvichet Vong and "Teknium" and Nathan Hoos}, year = {2023}, publisher = {HuggingFace}, url = {https://huggingface.co/datasets/Open-Orca/SlimOrca-Dedup/} } @misc{mukherjee2023orca, title={Orca: Progressive Learning from Complex Explanation Traces of GPT-4}, author={Subhabrata Mukherjee and Arindam Mitra and Ganesh Jawahar and Sahaj Agarwal and Hamid Palangi and Ahmed Awadallah}, year={2023}, eprint={2306.02707}, archivePrefix={arXiv}, primaryClass={cs.CL} } @misc{longpre2023flan, title={The Flan Collection: Designing Data and Methods for Effective Instruction Tuning}, author={Shayne Longpre and Le Hou and Tu Vu and Albert Webson and Hyung Won Chung and Yi Tay and Denny Zhou and Quoc V. Le and Barret Zoph and Jason Wei and Adam Roberts}, year={2023}, eprint={2301.13688}, archivePrefix={arXiv}, primaryClass={cs.AI} }



