five

rmihaylov/Bg-Instructions-Filtered

收藏
Hugging Face2024-07-17 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/rmihaylov/Bg-Instructions-Filtered
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个保加利亚语的指令数据集,使用了Magpie的思想生成,并经过了过滤处理。过滤条件包括相似度小于0.4、用户和助手的西里尔字母比例均为1。过滤后的对话被发送到BgGPT进行错误校正,如拼写、事实性、语法等。数据集包含对话的唯一ID(record_idx)和对话中的轮次编号(turn_idx)等信息。

This is an instruction dataset in Bulgarian generated using the ideas from Magpie. It is filtered with conditions including similarity less than 0.4 and both user and assistant Cyrillic ratios equal to 1. The filtered conversations are then sent to BgGPT for error correction such as spelling, factuality, grammar, etc. The dataset includes unique conversation IDs (record_idx) and turn numbers within conversations (turn_idx).
提供机构:
rmihaylov
原始信息汇总

数据集概述

数据集信息

  • 许可证: Apache 2.0
  • 特征:
    • record_idx: 对话的唯一ID,数据类型为int64
    • turn_idx: 对话中的轮次编号,数据类型为int64
    • messages: 包含以下子特征的列表:
      • content: 消息内容,数据类型为string
      • role: 消息角色,数据类型为string
  • 数据分割:
    • train: 训练集,包含107062个样本,总大小为248870315字节。
  • 下载大小: 102954821字节
  • 数据集大小: 248870315字节

配置

  • 配置名称: default
  • 数据文件:
    • train: 路径为data/train-*

数据集生成

  • 语言: 保加利亚语
  • 生成方法: 基于Magpie的思想生成。
  • 过滤条件:
    • similarity < 0.4
    • user_cyrl_ratio == 1
    • assistant_cyrl_ratio == 1
  • 错误修正: 使用BgGPT进行拼写、事实性和语法等错误修正。

列说明

  • record_idx: 对话的唯一ID,对应原始数据中的记录。
  • turn_idx: 对话中的轮次编号,每轮对话中每个角色可能有2个轮次。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作