five

KpopMT|Kpop文化数据集|机器翻译数据集

收藏
arXiv2024-07-10 更新2024-07-11 收录
Kpop文化
机器翻译
下载链接:
https://github.com/skswldndi/KpopMT
下载链接
链接失效反馈
资源简介:
KpopMT数据集由成均馆大学创建,专注于Kpop粉丝群体的术语翻译,包含1000条韩语到英语的平行句对,每条都标注了特定术语。数据集内容来源于粉丝社区网站和Twitter,通过专家翻译并确认术语的准确性。创建过程中,首先收集包含粉丝术语的句子,然后进行术语标注,形成平行术语库。KpopMT旨在解决机器翻译系统在处理特定社交群体术语时的不足,特别是在Kpop粉丝群体中的应用。
提供机构:
成均馆大学
创建时间:
2024-07-10
原始信息汇总

KpopMT: Translation Dataset with Terminology for Kpop Fandom

概述

KpopMT数据集旨在解决社交群体中特有的术语翻译挑战。该数据集选择了全球流行的Kpop粉丝群体作为研究对象,通过专家翻译提供1000条韩语帖子和评论的英文翻译,每条翻译都标注了社交群体语言系统中的特定术语。

目标

KpopMT数据集的目标是填补社交群体中术语翻译的空白,并通过评估现有的翻译系统(包括GPT模型)在KpopMT上的表现,识别其在反映群体特定术语和风格方面的失败案例。

扩展计划

计划将KpopMT数据集扩展到其他社交群体,如体育和全球电影社区。

引用

bibtex @misc{kim2024kpopmttranslationdatasetterminology, title={KpopMT: Translation Dataset with Terminology for Kpop Fandom}, author={JiWoo Kim and Yunsu Kim and JinYeong Bak}, year={2024}, eprint={2407.07413}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2407.07413}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
KpopMT数据集的构建过程分为两个阶段:句子阶段和术语阶段。在句子阶段,研究者从粉丝社区网站和Twitter上手动收集包含粉丝相关术语的韩语文本,并聘请精通术语的专家将这些句子翻译成英文,形成1000个句对。在术语阶段,研究者首先标记句对中的术语,然后创建一个包含韩语术语及其英语对应物的平行词汇表,并对词汇表进行专家确认。最后,研究者将句对标注为术语翻译,以确保翻译的可靠性。
特点
KpopMT数据集的特点在于其包含大量标记的句子,其中大部分术语属于粉丝群体特有的词汇(Group-Lexicon),其次是与粉丝群体相关的命名实体(Group-NE)和网络俚语(Slang)。此外,KpopMT在术语内容的丰富程度上超过了TICO-19等传统术语机器翻译数据集。数据集中术语的使用不仅有助于提高翻译的准确性,还能增强粉丝群体之间的社会联系。
使用方法
使用KpopMT数据集时,研究者可以将其与标准语言数据集和粉丝语言数据集相结合,以训练和评估机器翻译模型。此外,研究者可以通过比较不同翻译系统的性能,来评估它们在处理粉丝群体特定术语和风格方面的能力。KpopMT数据集的发布对于推动社交群体语言系统的研究具有重要意义,并为未来研究提供了基准数据集。
背景与挑战
背景概述
在全球化和社会媒体普及的背景下,不同社会群体内部形成了独特的语言系统,这些系统包含了特定的术语和俚语。KpopMT数据集旨在解决这些群体内部语言系统在机器翻译中的不足。该数据集由韩国成均馆大学和美国aiXplain Inc.的研究人员于2024年7月提出,旨在通过提供1,000对韩英翻译的帖子及评论,并标注社会群体内部使用的特定术语,以促进精确的术语翻译。KpopMT选择Kpop粉丝群体作为研究对象,因为其全球流行性,以及粉丝之间跨越语言障碍的交流需求。该数据集的创建填补了机器翻译领域中的一个空白,并有助于评估现有翻译系统在处理社会群体语言系统时的表现。
当前挑战
KpopMT数据集面临的挑战包括:1)社会群体内部语言系统的独特性和复杂性,机器翻译系统难以准确捕捉并翻译这些术语和俚语;2)构建过程中,收集和标注术语信息的工作量巨大,需要专家翻译人员和大量的人工审核;3)由于社会群体语言系统不断演变,数据集需要定期更新以保持其相关性。此外,翻译系统在处理术语时需要在保持术语准确性的同时,确保翻译的流畅性和自然性,这是一个技术上的挑战。
常用场景
经典使用场景
KpopMT数据集专注于解决社交群体中独特的术语翻译问题。该数据集包含了1000个韩文帖子及其英文翻译,每个翻译都标注了特定社交群体的语言系统中的术语。KpopMT数据集的经典使用场景是评估和改进现有的机器翻译系统,尤其是那些旨在处理社交群体中独特语言系统的系统。例如,该数据集可以用于训练和测试神经机器翻译模型,以提高对Kpop粉丝社群中特定术语的翻译准确性。
实际应用
KpopMT数据集的实际应用场景包括但不限于:1) 为Kpop粉丝社群提供准确的术语翻译,帮助他们更好地理解和交流;2) 为机器翻译系统开发者提供基准数据集,以改进他们的翻译模型,使其能够更准确地处理社交群体中的术语;3) 为语言学家和翻译研究者提供一个新的研究工具,以研究社交群体中的语言现象。此外,KpopMT数据集还可以用于开发针对特定社交群体的个性化翻译工具,例如为Kpop粉丝社群开发的翻译应用。
衍生相关工作
KpopMT数据集的发布引发了更多关于社交群体中独特语言系统翻译的研究。例如,一些研究者开始探索如何利用KpopMT数据集来改进其他领域的术语翻译,例如医疗、法律等领域。此外,一些开发者也开始利用KpopMT数据集来开发针对特定社交群体的个性化翻译工具,例如为Kpop粉丝社群开发的翻译应用。这些相关工作的出现,进一步证明了KpopMT数据集的重要性和影响力,并为未来研究提供了新的方向。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

Global Water Quality Dataset

该数据集包含了全球多个地区的水质监测数据,涵盖了多种水质参数,如pH值、溶解氧、电导率、温度等。数据集旨在帮助研究人员和政策制定者了解全球水质的现状和变化趋势。

www.kaggle.com 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录