five

mwz/urdu_alpaca_yc_filtered

收藏
Hugging Face2024-03-25 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/mwz/urdu_alpaca_yc_filtered
下载链接
链接失效反馈
官方服务:
资源简介:
Alpaca Urdu数据集是原始数据集的乌尔都语翻译版本,专为NLP任务设计。该数据集包含45,622个样本,涵盖乌尔都语的输入文本、输出文本及答案长度。它是Alpaca项目的一部分,遵循cc-by-4.0许可证。

Alpaca Urdu数据集是原始数据集的乌尔都语翻译版本,专为NLP任务设计。该数据集包含45,622个样本,涵盖乌尔都语的输入文本、输出文本及答案长度。它是Alpaca项目的一部分,遵循cc-by-4.0许可证。
提供机构:
mwz
原始信息汇总

Alpaca Urdu 数据集概述

描述

Alpaca Urdu 是将原始数据集翻译成乌尔都语的数据集。该数据集是 Alpaca 项目的一部分,旨在用于自然语言处理任务。

数据集信息

列信息

翻译后的数据集包含以下列:

  • input: 乌尔都语的输入文本。
  • output: 乌尔都语的翻译输出。
  • answer_lengths: 答案的长度。

示例用法

python from datasets import load_dataset

加载翻译后的数据集

dataset = load_dataset("mwz/alpaca-ur")

访问一个样本

sample = dataset["train"][0] print(sample)

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作