rmihaylov/Bg-Instructions-Filtered
收藏Hugging Face2024-07-17 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/rmihaylov/Bg-Instructions-Filtered
下载链接
链接失效反馈官方服务:
资源简介:
这是一个保加利亚语的指令数据集,使用了Magpie的思想生成,并经过了过滤处理。过滤条件包括相似度小于0.4、用户和助手的西里尔字母比例均为1。过滤后的对话被发送到BgGPT进行错误校正,如拼写、事实性、语法等。数据集包含对话的唯一ID(record_idx)和对话中的轮次编号(turn_idx)等信息。
This is an instruction dataset in Bulgarian generated using the ideas from Magpie. It is filtered with conditions including similarity less than 0.4 and both user and assistant Cyrillic ratios equal to 1. The filtered conversations are then sent to BgGPT for error correction such as spelling, factuality, grammar, etc. The dataset includes unique conversation IDs (record_idx) and turn numbers within conversations (turn_idx).
提供机构:
rmihaylov
原始信息汇总
数据集概述
数据集信息
- 许可证: Apache 2.0
- 特征:
record_idx: 对话的唯一ID,数据类型为int64。turn_idx: 对话中的轮次编号,数据类型为int64。messages: 包含以下子特征的列表:content: 消息内容,数据类型为string。role: 消息角色,数据类型为string。
- 数据分割:
train: 训练集,包含107062个样本,总大小为248870315字节。
- 下载大小: 102954821字节
- 数据集大小: 248870315字节
配置
- 配置名称: default
- 数据文件:
train: 路径为data/train-*。
数据集生成
- 语言: 保加利亚语
- 生成方法: 基于Magpie的思想生成。
- 过滤条件:
similarity< 0.4user_cyrl_ratio== 1assistant_cyrl_ratio== 1
- 错误修正: 使用BgGPT进行拼写、事实性和语法等错误修正。
列说明
record_idx: 对话的唯一ID,对应原始数据中的记录。turn_idx: 对话中的轮次编号,每轮对话中每个角色可能有2个轮次。



