SatyamDev/alpaca_data_cleaned_bhojpuri
收藏Hugging Face2024-05-21 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/SatyamDev/alpaca_data_cleaned_bhojpuri
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Alpaca-Cleaned数据集的Bhojpuri语言翻译版本,旨在为Bhojpuri语言的自然语言理解和生成任务提供资源。数据集包含51,760行数据,格式为CSV,由Satyam Tiwari整理。数据集直接从英文翻译而来,但存在翻译不准确的风险,因为使用了Google翻译。
提供机构:
SatyamDev
原始信息汇总
数据集概述
名称: Bhojpuri Dataset
任务类别:
- 翻译
- 文本到文本生成
- 问答
语言:
- Bhojpuri
- Hindi
大小: 10,000 < n < 100,000
数据集详情
描述: 该数据集是Alpaca-Cleaned数据集的翻译版本,原数据集由Yahma在Hugging Face提供。此Bhojpuri版本的数据集旨在为Bhojpuri语言的自然语言理解和生成任务提供训练和评估资源。
特征:
- 语言: Bhojpuri
- 来源: 翻译自原始英语数据集
- 大小: 51,760行
- 格式: CSV
翻译方法: 数据集通过此GitHub仓库进行翻译。
数据源:
使用
直接使用: [更多信息待补充]
超出范围的使用: [更多信息待补充]
数据集创建
源数据: Alpaca-Cleaned数据集
翻译风险与限制:
- 数据集直接翻译可能包含不应翻译的内容。
- 翻译依赖于Google翻译,可能不完全准确。
建议: 用户应意识到数据集的风险、偏差和限制。更多信息待补充以提供进一步建议。



