five

Ichsan2895/OASST_Top1_Indonesian

收藏
Hugging Face2023-08-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Ichsan2895/OASST_Top1_Indonesian
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于OpenAssistant/oasst1,选择了英语语言且排名为第一的数据,并使用Marian NMT和Helsinki-NLP/opus-mt-en-id预训练模型将其翻译成印尼语。数据集的任务类别为问答,规模在1K到10K之间,支持印尼语和英语。
提供机构:
Ichsan2895
原始信息汇总

数据集概述

许可证

语言

  • 该数据集包含印度尼西亚语(id)和英语(en)。

数据规模

  • 数据集大小介于1K到10K之间。

任务类别

  • 该数据集适用于问答任务(question-answering)。

数据来源

  • 基础数据集来自 OpenAssistant/oasst1
  • 选择了英语语言且排名第一的数据进行处理。

数据处理

引用

@InProceedings{mariannmt, title = {Marian: Fast Neural Machine Translation in {C++}}, author = {Junczys-Dowmunt, Marcin and Grundkiewicz, Roman and Dwojak, Tomasz and Hoang, Hieu and Heafield, Kenneth and Neckermann, Tom and Seide, Frank and Germann, Ulrich and Fikri Aji, Alham and Bogoychev, Nikolay and Martins, Andr{e} F. T. and Birch, Alexandra}, booktitle = {Proceedings of ACL 2018, System Demonstrations}, pages = {116--121}, publisher = {Association for Computational Linguistics}, year = {2018}, month = {July}, address = {Melbourne, Australia}, url = {http://www.aclweb.org/anthology/P18-4020} }

@InProceedings{TiedemannThottingal:EAMT2020, author = {J{"o}rg Tiedemann and Santhosh Thottingal}, title = {{OPUS-MT} — {B}uilding open translation services for the {W}orld}, booktitle = {Proceedings of the 22nd Annual Conferenec of the European Association for Machine Translation (EAMT)}, year = {2020}, address = {Lisbon, Portugal} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作