SEACrowd/kde4

Name: SEACrowd/kde4
Creator: SEACrowd
Published: 2024-06-24 13:24:15
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/kde4

下载链接

链接失效反馈

官方服务：

资源简介：

Kde4数据集是一个包含KDE4本地化文件的平行语料库，支持92种语言，共有4099个双语文本对。该数据集主要用于机器翻译任务，支持的语言包括印尼语、高棉语、马来语、泰语和越南语。数据集的使用可以通过`datasets`库或`seacrowd`库进行加载。

The Kde4 dataset is a parallel corpus of KDE4 localization files, available in 92 languages with a total of 4099 bitexts. The dataset is primarily used for machine translation tasks and supports languages including Indonesian (ind), Khmer (khm), Malay (zlm), Thai (tha), and Vietnamese (vie). The dataset can be loaded using the `datasets` library or the `seacrowd` library.

提供机构：

SEACrowd

原始信息汇总

Kde4 数据集概述

数据集基本信息

名称: Kde4
语言:
- 印尼语 (ind)
- 高棉语 (khm)
- 马来语 (zlm)
- 泰语 (tha)
- 越南语 (vie)
任务类别: 机器翻译
标签: 机器翻译
数据集版本:
- 源版本: 2.0.0
- SEACrowd版本: 2024.06.20
许可证: 未知

数据集描述

内容: 一个包含KDE4本地化文件的平行语料库。
语言数量: 92种语言
平行文本数量: 4099对

支持的任务

机器翻译

数据集使用方法

使用 `datasets` 库

python from datasets import load_dataset dset = datasets.load_dataset("SEACrowd/kde4", trust_remote_code=True)

使用 `seacrowd` 库

python import seacrowd as sc

使用默认配置加载数据集

dset = sc.load_dataset("kde4", schema="seacrowd")

查看数据集的所有可用子集（配置名称）

print(sc.available_config_names("kde4"))

使用特定配置加载数据集

dset = sc.load_dataset_by_config_name(config_name="<config_name>")

数据集主页

Kde4 数据集主页

引用

Kde4 数据集: bibtex @inproceedings{tiedemann2012parallel, title={Parallel Data, Tools and Interfaces in OPUS}, author={Tiedemann, J{"o}rg}, booktitle={Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC12)}, pages={2214--2218}, year={2012} }
SEACrowd 数据集: bibtex @article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and B{"o}rje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

SEACrowd/kde4数据集是一套并行语料库，由KDE4本地化文件构成。该数据集的构建涉及将92种语言的本地化内容进行配对，形成4099个双语文本，为机器翻译任务提供了丰富的语言资源。

特点

该数据集的特点在于其语言多样性，涵盖了印度尼西亚语、高棉语、客语、泰语和越南语等，主要支持机器翻译任务。此外，数据集的来源明确，版本更新至2.0.0，但遗憾的是，其版权信息尚不明确。

使用方法

用户可通过`datasets`库或`seacrowd`库来加载SEACrowd/kde4数据集。使用`datasets`库时，仅需一行代码即可实现加载；而使用`seacrowd`库，则提供了更多配置选项，用户可根据具体需求选择合适的配置加载数据集。详细的加载方法可在相关库的文档中找到。

背景与挑战

背景概述

SEACrowd/kde4数据集，作为一部涵盖92种语言的KDE4本地化文件平行语料库，其创建旨在为机器翻译领域提供丰富的多语言资源。该数据集由SEACrowd团队于2024年6月20日发布，包含了4099个双语文本，支持包括印度尼西亚语（ind）、高棉语（khm）、老挝语（zlm）、泰语（tha）和越南语（vie）等在内的多种语言。SEACrowd/kde4数据集的建立，不仅丰富了东南亚语言资源的可用性，而且对推动该地区语言翻译技术的进步具有显著影响力。

当前挑战

尽管SEACrowd/kde4数据集为机器翻译领域提供了宝贵的资源，但在构建和使用过程中亦面临诸多挑战。首先，多语言数据的收集和整合工作复杂，涉及到的语言多样性带来了数据清洗和预处理上的困难。其次，数据集的版权信息未知，这可能限制了其在某些研究和商业环境中的应用。此外，数据集的构建质量和可用性需要依赖社区的不断反馈和改进，以确保其能够满足研究者和开发者的需求。

常用场景

经典使用场景

在计算机科学领域，尤其是自然语言处理（NLP）的研究中，SEACrowd/kde4数据集因其丰富的多语言平行语料库特性，被广泛用于机器翻译任务。该数据集包含KDE4本地化文件的双语平行语料，覆盖了92种语言，为研究者提供了宝贵的训练和测试资源。

实际应用

SEACrowd/kde4数据集的实际应用场景广泛，不仅用于学术研究，还被应用于商业机器翻译服务中。通过该数据集训练的模型能够更好地服务于多语言环境下的软件本地化工作，提高了软件产品的国际化水平。

衍生相关工作

基于SEACrowd/kde4数据集，研究者们开展了一系列相关工作，包括但不限于改进翻译算法、构建多语言处理模型以及开发新的评估指标。这些工作进一步扩展了数据集的应用范围，丰富了机器翻译领域的理论研究与实践成果。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集