mwz/urdu_alpaca_yc_filtered
收藏Hugging Face2024-03-25 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/mwz/urdu_alpaca_yc_filtered
下载链接
链接失效反馈官方服务:
资源简介:
Alpaca Urdu数据集是原始数据集的乌尔都语翻译版本,专为NLP任务设计。该数据集包含45,622个样本,涵盖乌尔都语的输入文本、输出文本及答案长度。它是Alpaca项目的一部分,遵循cc-by-4.0许可证。
Alpaca Urdu数据集是原始数据集的乌尔都语翻译版本,专为NLP任务设计。该数据集包含45,622个样本,涵盖乌尔都语的输入文本、输出文本及答案长度。它是Alpaca项目的一部分,遵循cc-by-4.0许可证。
提供机构:
mwz
原始信息汇总
Alpaca Urdu 数据集概述
描述
Alpaca Urdu 是将原始数据集翻译成乌尔都语的数据集。该数据集是 Alpaca 项目的一部分,旨在用于自然语言处理任务。
数据集信息
- 大小: 翻译后的数据集包含 45,622 个样本。
- 语言: 乌尔都语
- 许可证: cc-by-4.0
- 原始数据集: 原始 Alpaca Cleaned 数据集仓库链接
列信息
翻译后的数据集包含以下列:
- input: 乌尔都语的输入文本。
- output: 乌尔都语的翻译输出。
- answer_lengths: 答案的长度。
示例用法
python from datasets import load_dataset
加载翻译后的数据集
dataset = load_dataset("mwz/alpaca-ur")
访问一个样本
sample = dataset["train"][0] print(sample)



