five

GIST|机器翻译数据集|人工智能数据集

收藏
arXiv2024-12-25 更新2024-12-31 收录
机器翻译
人工智能
下载链接:
https://github.com/jiarui-liu/MultilingualAITerminology
下载链接
链接失效反馈
资源简介:
GIST数据集是由卡内基梅隆大学等机构创建的大规模多语言AI术语数据集,旨在解决AI领域术语翻译的挑战。该数据集包含5000个从2000年至2023年顶级AI会议论文中提取的术语,并翻译成阿拉伯语、中文、法语、日语和俄语。数据集的创建过程结合了LLM的自动提取和人工翻译的混合框架,确保了翻译的高质量。GIST数据集的应用领域主要集中在机器翻译和AI研究,旨在提升非英语母语研究者在AI领域的知识获取和全球合作能力。
提供机构:
卡内基梅隆大学, 密歇根大学, 多伦多大学
创建时间:
2024-12-24
AI搜集汇总
数据集介绍
main_image_url
构建方式
GIST数据集的构建采用了混合框架,结合了大型语言模型(LLMs)的术语提取能力和人类专家的翻译经验。首先,从2000年至2023年顶级人工智能会议论文中提取了5000个AI术语,随后将这些术语翻译为阿拉伯语、中文、法语、日语和俄语。翻译过程通过众包方式进行,并由LLMs进行候选翻译的筛选,确保翻译质量。数据集的构建还包括与现有术语词典的整合,并通过自动和人工评估验证了其翻译准确性。
特点
GIST数据集的特点在于其大规模和多语言覆盖,涵盖了5000个AI术语及其五种语言的翻译。该数据集不仅术语数量庞大,还通过混合框架确保了翻译的高质量。此外,GIST的术语来源广泛,涵盖了多个AI领域,确保了术语的多样性和代表性。数据集的翻译质量通过众包评估和自动指标(如BLEU和COMET)进行了验证,表现出优于现有资源的翻译准确性。
使用方法
GIST数据集的使用方法主要包括将其集成到机器翻译工作流中,通过后翻译精炼方法提升翻译质量。具体方法包括LLM提示、词对齐替换和约束解码等,这些方法无需重新训练模型即可有效提升翻译效果。此外,GIST还通过ACL Anthology平台的网页演示展示了其在实际应用中的效果,为非英语母语的研究者提供了更准确的AI术语翻译,提升了全球AI研究的可访问性和协作性。
背景与挑战
背景概述
GIST(Glossary of Multilingual AI Scientific Terminology)数据集由卡内基梅隆大学、密歇根大学和多伦多大学的研究团队于2024年推出,旨在解决人工智能领域术语翻译的挑战。该数据集包含从2000年至2023年顶级AI会议论文中提取的5000个术语,并翻译为阿拉伯语、中文、法语、日语和俄语。GIST采用了一种混合框架,结合了大型语言模型(LLMs)的提取能力和人类专家的翻译经验,确保了翻译的高质量。该数据集的创建填补了多语言AI术语资源的空白,推动了全球AI研究的包容性与合作。
当前挑战
GIST数据集面临的挑战主要包括两个方面。首先,在领域问题方面,AI术语的翻译具有高度专业性和复杂性,通用翻译系统往往无法准确处理这些术语,导致信息丢失或误解。GIST通过提供高质量的术语翻译,解决了这一难题,但如何确保术语在不同语言和文化背景下的准确性和一致性仍是一个持续的挑战。其次,在构建过程中,数据集的创建依赖于大规模的人工标注和专家验证,这一过程耗时且资源密集。尽管LLMs在术语提取和翻译中发挥了重要作用,但其输出与人类专家的标准仍存在偏差,如何有效结合自动化与人工干预是构建过程中的一大挑战。
常用场景
经典使用场景
GIST数据集在机器翻译领域中被广泛用于提升领域特定术语的翻译质量,尤其是在人工智能领域的学术论文翻译中。通过结合大语言模型(LLMs)的提取能力和人类专家的翻译经验,GIST提供了高质量的术语翻译,显著提升了翻译的准确性和一致性。该数据集被集成到翻译工作流中,通过后翻译精炼方法,无需重新训练模型即可显著提升BLEU和COMET评分。
实际应用
GIST数据集在实际应用中,特别是在学术论文翻译和模型卡片的翻译中展现了其价值。通过集成到ACL Anthology平台,GIST为非英语母语的研究者提供了更准确的论文翻译,提升了学术资源的可访问性。此外,该数据集还被用于改进多语言机器翻译系统,帮助开发者在无需重新训练模型的情况下,提升翻译质量。
衍生相关工作
GIST数据集衍生了一系列相关研究工作,特别是在多语言术语翻译和机器翻译领域。基于GIST的研究探索了多种术语集成方法,如基于提示的精炼、词对齐替换和约束解码等。这些方法不仅提升了翻译质量,还为未来的多语言术语资源开发提供了新的思路。此外,GIST还启发了更多关于全球人工智能包容性和多语言学术交流的研究。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

MUStARD++

MUStARD++是一个多模态讽刺检测数据集,由萨里大学创建,旨在通过语言、语音和视觉线索全面捕捉讽刺现象。数据集包含1202个视频样本,来源于多个流行电视节目,通过手动标注确保高质量的讽刺标签。创建过程中,研究者们通过多轮标注和验证确保数据的准确性和多样性。该数据集主要应用于自动讽刺检测,帮助机器理解并识别讽刺语境,解决讽刺识别中的多模态挑战。

arXiv 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

CAP-DATA

CAP-DATA数据集由长安大学交通学院的研究团队创建,包含11,727个交通事故视频,总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口,还提供了详细的文本描述,包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息,提高交通事故预测的准确性和解释性,从而支持更安全的驾驶决策系统。

arXiv 收录