Mutonix/RefGPT-Code-bg
收藏Hugging Face2023-06-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Mutonix/RefGPT-Code-bg
下载链接
链接失效反馈官方服务:
资源简介:
RefGPT-Code是一个包含76k关于编程的多轮对话的数据集,其中包含37k英语和39k中文对话,涵盖了代码使用的多个方面和多种编程语言。RefGPT-Code-bg是其“bug修复”子集。该数据集主要用于聊天机器人指令微调任务。
提供机构:
Mutonix
原始信息汇总
数据集概述
数据集名称: RefGPT-Code-bg
数据集描述: RefGPT-Code-bg 是 RefGPT-Code 数据集的一个子集,专注于“bug fixing”场景。该数据集包含76k多轮对话,涉及编程相关内容,其中37k为英文对话,39k为中文对话。数据集覆盖了代码使用的多种场景和多种编程语言类型。
语言: 中文, 英文
数据集特征
- dialogue: 数据类型为字符串
- reference: 数据类型为字符串
- language: 数据类型为字符串
- type: 数据类型为字符串
数据集分割
- en: 包含8848个示例,总字节数为106344832.26735915
- zh: 包含9597个示例,总字节数为101753322.73345818
数据集大小
- 下载大小: 86625605字节
- 数据集大小: 208098155.00081733字节
许可信息
- 许可证: Apache-2.0
任务类别
- 任务类别: 对话式
数据集使用注意事项
- 数据准确性: 由于数据集未经过手动验证,其安全性无法严格保证。用户应意识到使用此数据集生成的结果需自行负责。
- 数据偏差: 数据集可能反映所选参考资料和GPT-3.5/GPT-4模型的偏差,包括事实错误、拼写错误或来自GitHub仓库的恶意代码。



