luisroque/instruct-python-llama2-500k

Name: luisroque/instruct-python-llama2-500k
Creator: luisroque
Published: 2023-08-18 09:44:26
License: 暂无描述

Hugging Face2023-08-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/luisroque/instruct-python-llama2-500k

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集来源于Stack Overflow上带有`python`标签的问题和答案，时间跨度为2008年8月2日至2016年10月19日。数据集经过处理，保留了高质量的内容，移除了HTML标签，并将问题和答案配对。最终的数据集包含约50万条指令，用于微调LLMs以改进Python编程辅助。数据集的结构符合Llama2的提示结构，适用于模型的微调。

提供机构：

luisroque

原始信息汇总

数据集概述

基本信息

特征:
- text: 数据类型为字符串。
数据分割:
- train: 包含 501349 个样本，总字节数为 1046127202。
下载大小: 530786217 字节。
数据集大小: 1046127202 字节。
配置:
- default: 数据文件路径为 data/train-*。
许可证: CC-BY-SA 3.0。
任务类别: 文本生成。
语言: 英语。
名称: Instruct Python 500k。
规模类别: 100K<n<1M。

转换后的数据集

目标: 用于微调大型语言模型（LLMs），以提高Python编程辅助的质量，专注于Stack Overflow的高质量内容，约有500k条指令。
结构:
- 问题-答案配对: 使用ParentId链接问题和答案。
- 质量聚焦: 仅保留每个问题的最高评分答案。
- HTML标签移除: 内容中的所有HTML标签被移除。
- 合并问题字段: 每个问题的标题和正文被合并。
- 过滤: 排除评分负数或不包含Python代码结构的条目。
最终列:
- score_question
- score_answer
- question
- answer
Llama2转换:
- 数据集已转换以匹配Llama2的提示结构，格式如下: <s>[INST] <<SYS>> {{ system_prompt }} <</SYS>> {{ user_message }} [/INST]
- system_prompt 提供模型上下文或指令。
- user_message 是用户在系统提示后的查询，期望模型给出特定响应。

原始数据集

包含带有python标签的Stack Overflow问题和答案，时间范围从2008年8月2日至2016年10月19日。

5,000+

优质数据集

54 个

任务类型

进入经典数据集