five

Mutonix/RefGPT-Code-bg

收藏
Hugging Face2023-06-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Mutonix/RefGPT-Code-bg
下载链接
链接失效反馈
官方服务:
资源简介:
RefGPT-Code是一个包含76k关于编程的多轮对话的数据集,其中包含37k英语和39k中文对话,涵盖了代码使用的多个方面和多种编程语言。RefGPT-Code-bg是其“bug修复”子集。该数据集主要用于聊天机器人指令微调任务。
提供机构:
Mutonix
原始信息汇总

数据集概述

数据集名称: RefGPT-Code-bg

数据集描述: RefGPT-Code-bg 是 RefGPT-Code 数据集的一个子集,专注于“bug fixing”场景。该数据集包含76k多轮对话,涉及编程相关内容,其中37k为英文对话,39k为中文对话。数据集覆盖了代码使用的多种场景和多种编程语言类型。

语言: 中文, 英文

数据集特征

  • dialogue: 数据类型为字符串
  • reference: 数据类型为字符串
  • language: 数据类型为字符串
  • type: 数据类型为字符串

数据集分割

  • en: 包含8848个示例,总字节数为106344832.26735915
  • zh: 包含9597个示例,总字节数为101753322.73345818

数据集大小

  • 下载大小: 86625605字节
  • 数据集大小: 208098155.00081733字节

许可信息

  • 许可证: Apache-2.0

任务类别

  • 任务类别: 对话式

数据集使用注意事项

  • 数据准确性: 由于数据集未经过手动验证,其安全性无法严格保证。用户应意识到使用此数据集生成的结果需自行负责。
  • 数据偏差: 数据集可能反映所选参考资料和GPT-3.5/GPT-4模型的偏差,包括事实错误、拼写错误或来自GitHub仓库的恶意代码。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作