SEACrowd/talpco

Name: SEACrowd/talpco
Creator: SEACrowd
Published: 2024-06-24 13:27:15
License: 暂无描述

Hugging Face2024-06-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/talpco

下载链接

链接失效反馈

官方服务：

资源简介：

TUFS亚洲语言平行语料库（TALPCo）是一个开放的平行语料库，包含日语句子及其翻译成韩语、缅甸语（缅甸的官方语言）、马来语（马来西亚、新加坡和文莱的国语）、印度尼西亚语、泰语、越南语和英语的文本。该数据集主要用于机器翻译任务，支持多种亚洲语言之间的翻译。

提供机构：

SEACrowd

原始信息汇总

数据集概述

名称

Talpco

语言

英语 (eng)
印尼语 (ind)
日语 (jpn)
韩语 (kor)
缅甸语 (myn)
泰语 (tha)
越南语 (vie)
马来语 (zsm)

任务类别

机器翻译

使用方法

使用 `datasets` 库

python from datasets import load_dataset dset = datasets.load_dataset("SEACrowd/talpco", trust_remote_code=True)

使用 `seacrowd` 库

python import seacrowd as sc

加载数据集使用默认配置

dset = sc.load_dataset("talpco", schema="seacrowd")

检查数据集的所有可用子集（配置名称）

print(sc.available_config_names("talpco"))

使用特定配置加载数据集

dset = sc.load_dataset_by_config_name(config_name="<config_name>")

数据集主页

https://github.com/matbahasa/TALPCo

数据集版本

源版本: 1.0.0
SEACrowd版本: 2024.06.20

数据集许可

CC-BY 4.0

引用

plaintext @article{published_papers/22434604, title = {TUFS Asian Language Parallel Corpus (TALPCo)}, author = {Hiroki Nomoto and Kenji Okano and David Moeljadi and Hideo Sawada}, journal = {言語処理学会第24回年次大会発表論文集}, pages = {436--439}, year = {2018} } @article{published_papers/22434603, title = {Interpersonal meaning annotation for Asian language corpora: The case of TUFS Asian Language Parallel Corpus (TALPCo)}, author = {Hiroki Nomoto and Kenji Okano and Sunisa Wittayapanyanon and Junta Nomura}, journal = {言語処理学会第25回年次大会発表論文集}, pages = {846--849}, year = {2019} }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

TUFS亚洲语言平行语料库（TALPCo）是一个开放式的平行语料库，主要由日本句子及其翻译构成，翻译涉及韩语、缅甸语、马来语、印度尼西亚语、泰语、越南语和英语。该语料库的构建旨在为机器翻译任务提供多样化的语言资源，通过精心挑选和翻译，确保了语料的准确性和多样性。

特点

TALPCo语料库的特点在于其多语言覆盖范围，以及针对东南亚地区语言的专门设计。它支持机器翻译任务，提供了丰富的语言对，有助于研究者进行跨语言的机器学习模型训练和评估。此外，该语料库遵循CC-BY 4.0协议，保证了数据的开放性和可访问性。

使用方法

使用TALPCo语料库，研究者可以通过`datasets`库或`seacrowd`库加载数据。通过`datasets`库，可以简单地调用`load_dataset`函数；而通过`seacrowd`库，则可以使用`load_dataset`或`load_dataset_by_config_name`函数，根据特定的配置加载不同的数据子集。详细的加载方法和使用指南可以在相关库的文档中找到。

背景与挑战

背景概述

TUFS亚洲语言平行语料库（TALPCo）是一项开放式的平行语料库，由日本句子及其翻译组成，涉及韩语、缅甸语（缅甸的官方语言）、马来语（马来西亚、新加坡和文莱的国家语言）、印度尼西亚语、泰语、越南语及英语。该语料库的创建旨在促进亚洲语言之间的机器翻译研究，由Hiroki Nomoto、Kenji Okano等研究人员于2018年推出，隶属于TUFS（东京外国语大学）。TALPCo语料库对亚洲语言机器翻译领域产生了深远影响，为相关研究提供了宝贵的资源。

当前挑战

在构建TALPCo语料库的过程中，研究人员面临了多项挑战。首先，是多语言翻译的准确性校验，确保不同语言之间的翻译准确无误。其次，是语料库的规模和质量控制，需要在数量和精度之间找到平衡。此外，语料库构建中的数据标注和一致性检查也是一项耗时且需细致处理的工作。在研究领域中，如何有效利用该语料库进行机器翻译模型的训练和评估，以及如何处理跨语言信息传递中的文化差异等，都是当前研究者和工程师需要克服的挑战。

常用场景

经典使用场景

在全球化的大背景下，语言的桥梁作用愈发显著。SEACrowd/talpco数据集，作为一个多语言平行语料库，其经典的使用场景主要聚焦于机器翻译领域，为研究人员提供了丰富的日语及其对应翻译文本，涵盖了韩语、缅甸语、马来语、印度尼西亚语、泰语、越南语以及英语，极大地促进了这些语言之间的互译研究。

实际应用

在实际应用中，SEACrowd/talpco数据集的应用范围广泛，不仅限于学术研究，还涉及到跨国公司的多语言服务、政府间的外交交流、国际组织的多语种资料整理等多个领域，为全球化时代的语言服务提供了强有力的数据支持。

衍生相关工作

基于SEACrowd/talpco数据集，学术界衍生出了一系列相关的工作，包括对数据集的进一步扩展、翻译模型的优化、跨语言信息检索的研究等，这些工作不仅丰富了机器翻译领域的学术研究，也为相关技术的实际应用提供了理论基础和实践指导。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

SEACrowd/talpco

数据集概述

名称

语言

任务类别

使用方法

使用 datasets 库

使用 seacrowd 库

加载数据集使用默认配置

检查数据集的所有可用子集（配置名称）

使用特定配置加载数据集

数据集主页

数据集版本

数据集许可

引用

使用 `datasets` 库

使用 `seacrowd` 库