five

SatyamDev/alpaca_data_cleaned_bhojpuri

收藏
Hugging Face2024-05-21 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/SatyamDev/alpaca_data_cleaned_bhojpuri
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Alpaca-Cleaned数据集的Bhojpuri语言翻译版本,旨在为Bhojpuri语言的自然语言理解和生成任务提供资源。数据集包含51,760行数据,格式为CSV,由Satyam Tiwari整理。数据集直接从英文翻译而来,但存在翻译不准确的风险,因为使用了Google翻译。
提供机构:
SatyamDev
原始信息汇总

数据集概述

名称: Bhojpuri Dataset

任务类别:

  • 翻译
  • 文本到文本生成
  • 问答

语言:

  • Bhojpuri
  • Hindi

大小: 10,000 < n < 100,000

数据集详情

描述: 该数据集是Alpaca-Cleaned数据集的翻译版本,原数据集由Yahma在Hugging Face提供。此Bhojpuri版本的数据集旨在为Bhojpuri语言的自然语言理解和生成任务提供训练和评估资源。

特征:

  • 语言: Bhojpuri
  • 来源: 翻译自原始英语数据集
  • 大小: 51,760行
  • 格式: CSV

翻译方法: 数据集通过此GitHub仓库进行翻译。

数据源:

使用

直接使用: [更多信息待补充]

超出范围的使用: [更多信息待补充]

数据集创建

源数据: Alpaca-Cleaned数据集

翻译风险与限制:

  • 数据集直接翻译可能包含不应翻译的内容。
  • 翻译依赖于Google翻译,可能不完全准确。

建议: 用户应意识到数据集的风险、偏差和限制。更多信息待补充以提供进一步建议。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作