luisroque/instruct-python-llama2-500k
收藏Hugging Face2023-08-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/luisroque/instruct-python-llama2-500k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来源于Stack Overflow上带有`python`标签的问题和答案,时间跨度为2008年8月2日至2016年10月19日。数据集经过处理,保留了高质量的内容,移除了HTML标签,并将问题和答案配对。最终的数据集包含约50万条指令,用于微调LLMs以改进Python编程辅助。数据集的结构符合Llama2的提示结构,适用于模型的微调。
提供机构:
luisroque
原始信息汇总
数据集概述
基本信息
- 特征:
text: 数据类型为字符串。
- 数据分割:
train: 包含 501349 个样本,总字节数为 1046127202。
- 下载大小: 530786217 字节。
- 数据集大小: 1046127202 字节。
- 配置:
default: 数据文件路径为data/train-*。
- 许可证: CC-BY-SA 3.0。
- 任务类别: 文本生成。
- 语言: 英语。
- 名称: Instruct Python 500k。
- 规模类别: 100K<n<1M。
转换后的数据集
- 目标: 用于微调大型语言模型(LLMs),以提高Python编程辅助的质量,专注于Stack Overflow的高质量内容,约有500k条指令。
- 结构:
- 问题-答案配对: 使用
ParentId链接问题和答案。 - 质量聚焦: 仅保留每个问题的最高评分答案。
- HTML标签移除: 内容中的所有HTML标签被移除。
- 合并问题字段: 每个问题的标题和正文被合并。
- 过滤: 排除评分负数或不包含Python代码结构的条目。
- 问题-答案配对: 使用
- 最终列:
score_questionscore_answerquestionanswer
- Llama2转换:
- 数据集已转换以匹配Llama2的提示结构,格式如下:
<s>[INST] <<SYS>> {{ system_prompt }} <</SYS>> {{ user_message }} [/INST] system_prompt提供模型上下文或指令。user_message是用户在系统提示后的查询,期望模型给出特定响应。
- 数据集已转换以匹配Llama2的提示结构,格式如下:
原始数据集
- 包含带有
python标签的Stack Overflow问题和答案,时间范围从2008年8月2日至2016年10月19日。



