mutiyama/alt|自然语言处理数据集|多语言翻译数据集

hugging_face2024-01-09 更新2024-05-25 收录

自然语言处理

多语言翻译

下载链接：

https://hf-mirror.com/datasets/mutiyama/alt

下载链接

链接失效反馈

资源简介：

亚洲语言树库（ALT）是一个多语言数据集，支持13种亚洲语言，包括孟加拉语、英语、菲律宾语、印地语、印度尼西亚语、日语、高棉语、老挝语、马来语、缅甸语、泰语、越南语和中国语（简体中文）。该数据集旨在通过开放合作推动亚洲自然语言处理技术的发展，适用于机器翻译和依赖解析等任务。ALT由日本国家信息和通信技术研究所（NICT）等机构合作开发，采用专家生成和众包方式进行注释，并根据CC-BY-4.0许可证发布。

提供机构：

mutiyama

原始信息汇总

数据集概述

数据集名称

Asian Language Treebank (ALT)

语言支持

13种语言：Bengali, English, Filipino, Hindi, Bahasa Indonesia, Japanese, Khmer, Lao, Malay, Myanmar (Burmese), Thai, Vietnamese, Chinese (Simplified Chinese)

许可协议

Creative Commons Attribution 4.0 International (CC BY 4.0)

多语言性

多语言
翻译

任务类别

翻译
token-classification

数据集大小

100K<n<1M
10K<n<100K

数据集创建者

National Institute of Information and Communications Technology, Japan (NICT)
University of Computer Studies, Yangon, Myanmar (UCSY)
Badan Pengkajian dan Penerapan Teknologi, Indonesia (BPPT)
Institute for Infocomm Research, Singapore (I2R)
Institute of Information Technology, Vietnam (IOIT)
National Institute of Posts, Telecoms and ICT, Cambodia

数据集配置

config_name: alt-en, alt-jp, alt-km, alt-my, alt-my-transliteration, alt-my-west-transliteration, alt-parallel

数据集特征

alt-en
- features: SNT.URLID, SNT.URLID.SNTID, url, status, value
- splits: train, validation, test
alt-jp
- features: SNT.URLID, SNT.URLID.SNTID, url, status, value, word_alignment, jp_tokenized, en_tokenized
- splits: train, validation, test
alt-km
- features: SNT.URLID, SNT.URLID.SNTID, url, km_pos_tag, km_tokenized
- splits: train, validation, test
alt-my
- features: SNT.URLID, SNT.URLID.SNTID, url, value
- splits: train, validation, test
alt-my-transliteration
- features: en, my
- splits: train
alt-my-west-transliteration
- features: en, my
- splits: train
alt-parallel
- features: SNT.URLID, SNT.URLID.SNTID, url, translation
- splits: train, validation, test

数据集下载和大小

alt-en
- download_size: 3781814
- dataset_size: 11187560
alt-jp
- download_size: 10355366
- dataset_size: 24245424
alt-km
- download_size: 4344096
- dataset_size: 13344316
alt-my
- download_size: 6569025
- dataset_size: 22679830
alt-my-transliteration
- download_size: 2163951
- dataset_size: 4249316
alt-my-west-transliteration
- download_size: 2857511
- dataset_size: 7411911
alt-parallel
- download_size: 34707907
- dataset_size: 75971326

引用信息

@inproceedings{riza2016introduction, title={Introduction of the asian language treebank}, author={Riza, Hammam and Purwoadi, Michael and Uliniansyah, Teduh and Ti, Aw Ai and Aljunied, Sharifah Mahani and Mai, Luong Chi and Thang, Vu Tat and Thai, Nguyen Phuong and Chea, Vichet and Sam, Sethserey and others}, booktitle={2016 Conference of The Oriental Chapter of International Committee for Coordination and Standardization of Speech Databases and Assessment Techniques (O-COCOSDA)}, pages={1--6}, year={2016}, organization={IEEE} }

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

OMIM (Online Mendelian Inheritance in Man)

OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。

www.omim.org 收录

VoxBox

VoxBox是一个大规模语音语料库，由多样化的开源数据集构建而成，用于训练文本到语音（TTS）系统。

github 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估，我们引入了一个新颖且全面的数据集，专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集，包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象，以实现强大的检测和分类。

github 收录

12306车次数据库

本数据库包含12306车次相关的详细信息，如车次代码、车站代码、列车基本信息和时刻表信息等。数据已按车次等级整理，并提供多种格式的数据文件，方便用户根据实际需求调用。

github 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集，包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述，包括数据来源、图像数量、标注信息等。

github 收录