mutiyama/alt|自然语言处理数据集|多语言翻译数据集
收藏数据集概述
数据集名称
- Asian Language Treebank (ALT)
语言支持
- 13种语言:Bengali, English, Filipino, Hindi, Bahasa Indonesia, Japanese, Khmer, Lao, Malay, Myanmar (Burmese), Thai, Vietnamese, Chinese (Simplified Chinese)
许可协议
- Creative Commons Attribution 4.0 International (CC BY 4.0)
多语言性
- 多语言
- 翻译
任务类别
- 翻译
- token-classification
数据集大小
- 100K<n<1M
- 10K<n<100K
数据集创建者
- National Institute of Information and Communications Technology, Japan (NICT)
- University of Computer Studies, Yangon, Myanmar (UCSY)
- Badan Pengkajian dan Penerapan Teknologi, Indonesia (BPPT)
- Institute for Infocomm Research, Singapore (I2R)
- Institute of Information Technology, Vietnam (IOIT)
- National Institute of Posts, Telecoms and ICT, Cambodia
数据集配置
- config_name: alt-en, alt-jp, alt-km, alt-my, alt-my-transliteration, alt-my-west-transliteration, alt-parallel
数据集特征
- alt-en
- features: SNT.URLID, SNT.URLID.SNTID, url, status, value
- splits: train, validation, test
- alt-jp
- features: SNT.URLID, SNT.URLID.SNTID, url, status, value, word_alignment, jp_tokenized, en_tokenized
- splits: train, validation, test
- alt-km
- features: SNT.URLID, SNT.URLID.SNTID, url, km_pos_tag, km_tokenized
- splits: train, validation, test
- alt-my
- features: SNT.URLID, SNT.URLID.SNTID, url, value
- splits: train, validation, test
- alt-my-transliteration
- features: en, my
- splits: train
- alt-my-west-transliteration
- features: en, my
- splits: train
- alt-parallel
- features: SNT.URLID, SNT.URLID.SNTID, url, translation
- splits: train, validation, test
数据集下载和大小
- alt-en
- download_size: 3781814
- dataset_size: 11187560
- alt-jp
- download_size: 10355366
- dataset_size: 24245424
- alt-km
- download_size: 4344096
- dataset_size: 13344316
- alt-my
- download_size: 6569025
- dataset_size: 22679830
- alt-my-transliteration
- download_size: 2163951
- dataset_size: 4249316
- alt-my-west-transliteration
- download_size: 2857511
- dataset_size: 7411911
- alt-parallel
- download_size: 34707907
- dataset_size: 75971326
引用信息
@inproceedings{riza2016introduction, title={Introduction of the asian language treebank}, author={Riza, Hammam and Purwoadi, Michael and Uliniansyah, Teduh and Ti, Aw Ai and Aljunied, Sharifah Mahani and Mai, Luong Chi and Thang, Vu Tat and Thai, Nguyen Phuong and Chea, Vichet and Sam, Sethserey and others}, booktitle={2016 Conference of The Oriental Chapter of International Committee for Coordination and Standardization of Speech Databases and Assessment Techniques (O-COCOSDA)}, pages={1--6}, year={2016}, organization={IEEE} }
OMIM (Online Mendelian Inheritance in Man)
OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。
www.omim.org 收录
VoxBox
VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。
github 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
12306车次数据库
本数据库包含12306车次相关的详细信息,如车次代码、车站代码、列车基本信息和时刻表信息等。数据已按车次等级整理,并提供多种格式的数据文件,方便用户根据实际需求调用。
github 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录