five

luisroque/instruct-python-llama2-500k

收藏
Hugging Face2023-08-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/luisroque/instruct-python-llama2-500k
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集来源于Stack Overflow上带有`python`标签的问题和答案,时间跨度为2008年8月2日至2016年10月19日。数据集经过处理,保留了高质量的内容,移除了HTML标签,并将问题和答案配对。最终的数据集包含约50万条指令,用于微调LLMs以改进Python编程辅助。数据集的结构符合Llama2的提示结构,适用于模型的微调。
提供机构:
luisroque
原始信息汇总

数据集概述

基本信息

  • 特征:
    • text: 数据类型为字符串。
  • 数据分割:
    • train: 包含 501349 个样本,总字节数为 1046127202。
  • 下载大小: 530786217 字节。
  • 数据集大小: 1046127202 字节。
  • 配置:
    • default: 数据文件路径为 data/train-*
  • 许可证: CC-BY-SA 3.0。
  • 任务类别: 文本生成。
  • 语言: 英语。
  • 名称: Instruct Python 500k。
  • 规模类别: 100K<n<1M。

转换后的数据集

  • 目标: 用于微调大型语言模型(LLMs),以提高Python编程辅助的质量,专注于Stack Overflow的高质量内容,约有500k条指令。
  • 结构:
    • 问题-答案配对: 使用ParentId链接问题和答案。
    • 质量聚焦: 仅保留每个问题的最高评分答案。
    • HTML标签移除: 内容中的所有HTML标签被移除。
    • 合并问题字段: 每个问题的标题和正文被合并。
    • 过滤: 排除评分负数或不包含Python代码结构的条目。
  • 最终列:
    • score_question
    • score_answer
    • question
    • answer
  • Llama2转换:
    • 数据集已转换以匹配Llama2的提示结构,格式如下: <s>[INST] <<SYS>> {{ system_prompt }} <</SYS>> {{ user_message }} [/INST]
    • system_prompt 提供模型上下文或指令。
    • user_message 是用户在系统提示后的查询,期望模型给出特定响应。

原始数据集

  • 包含带有python标签的Stack Overflow问题和答案,时间范围从2008年8月2日至2016年10月19日。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作