KpopMT

Name: KpopMT
Creator: 成均馆大学
Published: 2024-07-10 15:14:51
License: 暂无描述

arXiv2024-07-10 更新2024-07-11 收录

下载链接：

https://github.com/skswldndi/KpopMT

下载链接

链接失效反馈

官方服务：

资源简介：

KpopMT数据集由成均馆大学创建，专注于Kpop粉丝群体的术语翻译，包含1000条韩语到英语的平行句对，每条都标注了特定术语。数据集内容来源于粉丝社区网站和Twitter，通过专家翻译并确认术语的准确性。创建过程中，首先收集包含粉丝术语的句子，然后进行术语标注，形成平行术语库。KpopMT旨在解决机器翻译系统在处理特定社交群体术语时的不足，特别是在Kpop粉丝群体中的应用。

The KpopMT dataset, developed by Sungkyunkwan University, is dedicated to term translation within K-pop fan communities. It consists of 1,000 Korean-to-English parallel sentence pairs, each annotated with specialized terms. The dataset is sourced from fan community platforms and Twitter, with all terms translated and their accuracy verified by domain experts. During the dataset construction process, sentences containing fan-specific jargon were first collected, followed by term annotation to establish a parallel term corpus. KpopMT is designed to address the limitations of machine translation systems in handling terms specific to niche social groups, particularly for applications targeting K-pop fan communities.

提供机构：

成均馆大学

创建时间：

2024-07-10

原始信息汇总

KpopMT: Translation Dataset with Terminology for Kpop Fandom

概述

KpopMT数据集旨在解决社交群体中特有的术语翻译挑战。该数据集选择了全球流行的Kpop粉丝群体作为研究对象，通过专家翻译提供1000条韩语帖子和评论的英文翻译，每条翻译都标注了社交群体语言系统中的特定术语。

目标

KpopMT数据集的目标是填补社交群体中术语翻译的空白，并通过评估现有的翻译系统（包括GPT模型）在KpopMT上的表现，识别其在反映群体特定术语和风格方面的失败案例。

扩展计划

计划将KpopMT数据集扩展到其他社交群体，如体育和全球电影社区。

引用

bibtex @misc{kim2024kpopmttranslationdatasetterminology, title={KpopMT: Translation Dataset with Terminology for Kpop Fandom}, author={JiWoo Kim and Yunsu Kim and JinYeong Bak}, year={2024}, eprint={2407.07413}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2407.07413}, }

搜集汇总

数据集介绍

构建方式

KpopMT数据集的构建过程分为两个阶段：句子阶段和术语阶段。在句子阶段，研究者从粉丝社区网站和Twitter上手动收集包含粉丝相关术语的韩语文本，并聘请精通术语的专家将这些句子翻译成英文，形成1000个句对。在术语阶段，研究者首先标记句对中的术语，然后创建一个包含韩语术语及其英语对应物的平行词汇表，并对词汇表进行专家确认。最后，研究者将句对标注为术语翻译，以确保翻译的可靠性。

特点

KpopMT数据集的特点在于其包含大量标记的句子，其中大部分术语属于粉丝群体特有的词汇（Group-Lexicon），其次是与粉丝群体相关的命名实体（Group-NE）和网络俚语（Slang）。此外，KpopMT在术语内容的丰富程度上超过了TICO-19等传统术语机器翻译数据集。数据集中术语的使用不仅有助于提高翻译的准确性，还能增强粉丝群体之间的社会联系。

使用方法

使用KpopMT数据集时，研究者可以将其与标准语言数据集和粉丝语言数据集相结合，以训练和评估机器翻译模型。此外，研究者可以通过比较不同翻译系统的性能，来评估它们在处理粉丝群体特定术语和风格方面的能力。KpopMT数据集的发布对于推动社交群体语言系统的研究具有重要意义，并为未来研究提供了基准数据集。

背景与挑战

背景概述

在全球化和社会媒体普及的背景下，不同社会群体内部形成了独特的语言系统，这些系统包含了特定的术语和俚语。KpopMT数据集旨在解决这些群体内部语言系统在机器翻译中的不足。该数据集由韩国成均馆大学和美国aiXplain Inc.的研究人员于2024年7月提出，旨在通过提供1,000对韩英翻译的帖子及评论，并标注社会群体内部使用的特定术语，以促进精确的术语翻译。KpopMT选择Kpop粉丝群体作为研究对象，因为其全球流行性，以及粉丝之间跨越语言障碍的交流需求。该数据集的创建填补了机器翻译领域中的一个空白，并有助于评估现有翻译系统在处理社会群体语言系统时的表现。

当前挑战

KpopMT数据集面临的挑战包括：1)社会群体内部语言系统的独特性和复杂性，机器翻译系统难以准确捕捉并翻译这些术语和俚语；2)构建过程中，收集和标注术语信息的工作量巨大，需要专家翻译人员和大量的人工审核；3)由于社会群体语言系统不断演变，数据集需要定期更新以保持其相关性。此外，翻译系统在处理术语时需要在保持术语准确性的同时，确保翻译的流畅性和自然性，这是一个技术上的挑战。

常用场景

经典使用场景

KpopMT数据集专注于解决社交群体中独特的术语翻译问题。该数据集包含了1000个韩文帖子及其英文翻译，每个翻译都标注了特定社交群体的语言系统中的术语。KpopMT数据集的经典使用场景是评估和改进现有的机器翻译系统，尤其是那些旨在处理社交群体中独特语言系统的系统。例如，该数据集可以用于训练和测试神经机器翻译模型，以提高对Kpop粉丝社群中特定术语的翻译准确性。

实际应用

KpopMT数据集的实际应用场景包括但不限于：1) 为Kpop粉丝社群提供准确的术语翻译，帮助他们更好地理解和交流；2) 为机器翻译系统开发者提供基准数据集，以改进他们的翻译模型，使其能够更准确地处理社交群体中的术语；3) 为语言学家和翻译研究者提供一个新的研究工具，以研究社交群体中的语言现象。此外，KpopMT数据集还可以用于开发针对特定社交群体的个性化翻译工具，例如为Kpop粉丝社群开发的翻译应用。

衍生相关工作

KpopMT数据集的发布引发了更多关于社交群体中独特语言系统翻译的研究。例如，一些研究者开始探索如何利用KpopMT数据集来改进其他领域的术语翻译，例如医疗、法律等领域。此外，一些开发者也开始利用KpopMT数据集来开发针对特定社交群体的个性化翻译工具，例如为Kpop粉丝社群开发的翻译应用。这些相关工作的出现，进一步证明了KpopMT数据集的重要性和影响力，并为未来研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集