Classical Chinese Poetry Translation Dataset|机器翻译数据集|古典文学数据集

arXiv2024-08-19 更新2024-08-21 收录

机器翻译

古典文学

下载链接：

http://arxiv.org/abs/2408.09945v1

下载链接

链接失效反馈

资源简介：

本数据集由哈尔滨工业大学和鹏城实验室共同创建，专注于古典中文诗歌的翻译评估。数据集包含608首来自唐诗、宋诗和元曲的诗歌及其英文翻译，旨在评估大型语言模型在翻译中的充分性、流畅性和优雅性。数据集的创建过程包括手动筛选和标注，确保翻译的质量和准确性。该数据集主要用于研究和评估机器翻译系统在处理古典中文诗歌时的性能，特别是在保持诗歌原有文化内涵和美学价值方面的能力。

提供机构：

哈尔滨工业大学计算机科学与技术学院，鹏城实验室

创建时间：

2024-08-19

AI搜集汇总

数据集介绍

构建方式

该数据集的构建方式是通过收集唐、宋、元时期的1200首古典诗词及其对应的英文翻译，然后经过人工筛选，选择了608首诗词及其翻译作为翻译源和目标对齐的金标准。此外，还构建了一个包含3万条记录的古典诗词知识库，其中包括诗词的历史背景、朝代名称、现代中文翻译、作者介绍、现代中文分析和诗词类型等信息。为了确保数据质量，还邀请了人工标注者对翻译平行句对的质量进行评估，并消除了任何有问题的实例。

特点

该数据集的特点是包含了丰富的历史文化知识和诗词结构信息，为评估LLMs在翻译古典诗词方面的能力提供了良好的基准。此外，该数据集还引入了一种基于GPT-4的自动评估指标，能够更好地评估翻译质量，克服了传统指标的局限性。

使用方法

使用该数据集时，可以先通过RAT（Retrieval Augmented Translate）方法来增强翻译过程，该方法通过从古典诗词知识库中检索相关知识来提高翻译质量。此外，还可以使用基于GPT-4的自动评估指标来评估翻译质量，包括准确性、流畅度和优雅度等方面。

背景与挑战

背景概述

古典诗词翻译数据集（Classical Chinese Poetry Translation Dataset）是一项旨在评估大型语言模型（LLMs）在翻译古典中国诗歌至英文方面的表现的研究项目。该项目由中国哈尔滨工业大学计算机科学与技术学院和鹏城实验室的研究团队共同完成，主要研究人员包括Andong Chen、Lianzhang Lou、Kehai Chen、Xuefeng Bai、Yang Xiang、Muyun Yang、Tiejun Zhao和Min Zhang。该数据集的研究背景源于对高质量翻译的需求，不仅要求翻译准确，还要流畅和优雅。古典中国诗歌富含文化和历史意义，其翻译需要准确传达原意，同时遵循诗歌的韵律、音调和结构规则，并保持语言表达的简洁和优雅。该数据集的创建旨在评估当前LLMs在翻译古典中国诗歌方面的能力，并提出了RAT（Retrieval-Augmented machine Translation）方法，通过结合与古典诗歌相关的知识来增强翻译过程。此外，还提出了一种基于GPT-4的自动评估指标，以更好地评估翻译质量。该数据集及其代码将公开发布，以促进社区对LLMs在翻译高质量文本方面的潜力和未来发展的讨论。

当前挑战

古典诗词翻译数据集面临的主要挑战包括：1) 翻译的准确性，需要准确传达文化和历史意义；2) 翻译的流畅性，需要遵循诗歌的韵律、音调和结构规则；3) 翻译的优雅性，需要保持语言表达的简洁和优雅。此外，构建过程中遇到的挑战包括：1) 如何有效地结合古典诗歌相关的知识来增强翻译过程；2) 如何设计一种能够更准确地评估翻译质量的自动评估指标。

常用场景

经典使用场景

该数据集最经典的使用场景是评估大型语言模型（LLMs）在翻译古汉语诗歌到英文时的表现。该任务不仅要求翻译在文化、历史内容上的准确性，还要求在语言流畅性和诗歌优雅性方面达到高标准。该数据集为研究者和开发者提供了一个平台，用以测试和改进LLMs在处理这类复杂翻译任务时的能力。

实际应用

该数据集的实际应用场景包括但不限于：教育和研究机构、翻译服务提供商、文化机构等。教育和研究机构可以利用该数据集来训练和评估翻译模型，以改善机器翻译质量。翻译服务提供商可以利用该数据集来提供高质量的诗歌翻译服务。文化机构可以利用该数据集来推广和传播古汉语诗歌，让更多人了解和欣赏这一文化遗产。

衍生相关工作

该数据集衍生了RAT方法，这是一种基于检索增强的机器翻译方法，通过检索与古汉语诗歌相关的知识，提高了翻译质量。此外，还提出了一个基于GPT-4的自动评估指标，以更好地评估翻译质量。这些相关工作为LLMs在翻译古汉语诗歌方面的研究和发展提供了新的思路和方法。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎，旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域，包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

CBIS-DDSM

该数据集用于训练乳腺癌分类器或分割模型，包含3103张乳腺X光片，其中465张有多个异常。数据集分为训练集和测试集，还包括3568张裁剪的乳腺X光片和对应的掩码。

github 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

INTERACTION Dataset

INTERACTION数据集是由加州大学伯克利分校机械系统控制实验室等多个国际研究机构合作创建的，旨在为自动驾驶领域提供高质量的交互式驾驶场景数据。该数据集包含多种复杂的交互式驾驶场景，如城市/高速公路/匝道合并和车道变更、环形交叉口、信号交叉口等，覆盖多个国家和文化背景，以自然方式包含不同文化的驾驶偏好和风格。数据集强调高度交互和复杂的驾驶行为，包括对抗性和合作性运动，以及从常规安全操作到危险、接近碰撞的操纵。此外，数据集提供完整的语义地图信息，包括物理层、参考线、车道连接和交通规则，记录自无人机和交通摄像头。该数据集适用于运动预测、模仿学习、决策制定和规划、表示学习、交互提取和社会行为生成等研究领域，旨在解决自动驾驶中的关键问题。

arXiv 收录

ZuantuSet

ZuantuSet是一个包含超过71,000个中国历史视觉化和108,000个插图的数据集。该数据集由北京大学的一般人工智能国家重点实验室和智能科学技术学院通过半自动化的管道收集和提取历史书籍中的视觉化内容而构建。数据集涵盖了从公元前550年到1950年的中国历史视觉化作品。该数据集不仅揭示了历史中国视觉化的独特设计模式，还分析了其背后的历史和文化成因，为数字人文领域的研究提供了丰富的资源。

arXiv 收录