rishiraj/bengalichat
收藏Hugging Face2023-11-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rishiraj/bengalichat
下载链接
链接失效反馈官方服务:
资源简介:
Bengali Chat数据集是一个专门为孟加拉语设计的对话和文本生成数据集,旨在解决当前以英语为首的大语言模型在其他语言上表现不佳的问题。该数据集包含10,000条指令和演示,可以用于监督微调(SFT)以改进多语言模型在遵循指令方面的表现。数据集的结构包括prompt(描述模型应执行的任务)、prompt_id(唯一ID)、messages(包含角色和内容的数组)、category(示例所属的类别)和text(兼容SFTTrainer的dataset_text_field格式的内容)。数据集分为训练集和测试集,分别包含9,500和500个示例。数据集采用Creative Commons NonCommercial (CC BY-NC 4.0)许可。
提供机构:
rishiraj
原始信息汇总
数据集概述
数据集名称
Bengali Chat
数据集描述
Bengali Chat数据集是基于OpenAI的InstructGPT论文中的指令数据集构建的,并从HuggingFaceH4/no_robots数据集中翻译而来。该数据集主要包含单轮指令,涵盖多个类别。
语言
数据集中的数据为孟加拉语(BCP-47 bn)。
数据字段
prompt: 描述模型应执行的任务。prompt_id: 提示的唯一ID。messages: 消息数组,每个消息包含角色(系统、用户、助手)和内容。category: 示例所属的类别(例如Chat或Coding)。text:messages的内容,格式与SFTTrainer的dataset_text_field兼容。
数据分割
| train_sft | test_sft | |
|---|---|---|
| bengalichat | 9500 | 500 |
类别分布
| Category | Count |
|---|---|
| Generation | 4560 |
| Open QA | 1240 |
| Brainstorm | 1120 |
| Chat | 850 |
| Rewrite | 660 |
| Summarize | 420 |
| Coding | 350 |
| Classify | 350 |
| Closed QA | 260 |
| Extract | 190 |
许可信息
该数据集采用Creative Commons NonCommercial (CC BY-NC 4.0)许可。
引用信息
@misc{bengalichat, author = {Rishiraj Acharya}, title = {Bengali Chat}, year = {2023}, publisher = {Hugging Face}, journal = {Hugging Face repository}, howpublished = {url{https://huggingface.co/datasets/rishiraj/bengalichat}} }



