five

ATD-Trans

收藏
arXiv2026-05-13 更新2026-05-15 收录
下载链接:
https://att-astrec.nict.go.jp/member/shigashiyama/resources/atd-trans/index.html
下载链接
链接失效反馈
官方服务:
资源简介:
ATD-Trans是由日本国立信息通信技术研究所与奈良先端科学技术大学院大学联合构建的地理信息增强型日英旅行日志翻译数据集。该数据集包含90篇日本国内及海外旅行博客的平行文本,共计数千个句子与地理实体标注,数据源自现有ATD旅行日志数据集,并经过专业翻译与多阶段地理标注处理。数据集通过人工翻译与地理知识库链接,实现了文档级地理实体标注与翻译质量评估。该数据集主要应用于地理文本机器翻译研究,旨在解决地理实体翻译准确性及跨语言地理信息公平访问问题,支持旅游管理与跨语言信息检索等应用场景。

ATD-Trans is a geographic information-enhanced Japanese-English travelogue translation dataset jointly constructed by the National Institute of Information and Communications Technology (NICT), Japan, and the Nara Institute of Science and Technology (NAIST). This dataset contains parallel texts of 90 travel blogs covering domestic and overseas travel in Japan, with thousands of sentences and geographic entity annotations. It is derived from the existing ATD travelogue dataset and has undergone professional translation and multi-stage geographic annotation processing. Through human translation and linkage to geographic knowledge bases, this dataset enables document-level geographic entity annotation and translation quality evaluation. This dataset is primarily applied to machine translation research for geographic texts, aiming to address the issues of translation accuracy of geographic entities and equitable access to cross-lingual geographic information, and supports application scenarios such as tourism management and cross-lingual information retrieval.
提供机构:
日本国立信息通信技术研究所; 奈良先端科学技术大学院大学
创建时间:
2026-05-13
原始信息汇总

数据集概述:NAIST-NICT 旅行記翻訳データセット(ATD-Trans)

1. 数据集名称

  • 中文名称:NAIST-NICT 旅行记翻译数据集
  • 英文名称:NAIST-NICT Travelogue Translation Dataset
  • 简称:ATD-Trans

2. 数据集用途

  • 本数据集专门用于学术研究目的,主要面向日英旅行记翻译相关研究。

3. 数据来源与关联

  • 本数据集基于 NAIST 旅行记数据集(NAIST Academic Travelogue Dataset)构建,是对其的翻译扩展版本。

4. 使用资格与限制

  • 适用对象:仅限学術研究機関(大学、公的研究機関、その他これに準ずる非営利の研究機関)所属的研究者。
  • 附加条件:使用者必须已获得 NAIST 旅行记数据集 的使用许可。
  • 使用目的:仅限学術研究目的

5. 申请流程

  1. 首先申请并获得 NAIST 旅行记数据集 的使用许可。
  2. 同意以下两份利用規約:
    • NAIST旅行記データセット利用規約
    • NAIST-NICT旅行記翻訳データセット利用規約
  3. 通过对应的利用申請フォーム提交申请:
    • NAIST旅行記データセット 利用申請フォーム
    • NAIST-NICT旅行記翻訳データセット 利用申請フォーム

6. 相关论文

  • [1] Hiroki Ouchi, Hiroyuki Shindo, Shoko Wakamiya, Yuki Matsuda, Naoya Inoue, Shohei Higashiyama, Satoshi Nakamura, and Taro Watanabe. NAIST Academic Travelogue Dataset. arXiv:2305.11444, May 2023. [Paper]
  • [2] Shohei Higashiyama, Hiroki Ouchi, Atsushi Fujita, and Masao Utiyama. ATD-Trans: A Geographically Grounded Japanese–English Travelogue Translation Dataset. arXiv:2605.12933, May 2026. [Paper]

7. 数据更新日期

  • 最后更新:2026年5月14日

注意:本数据集不提供直接下载链接,所有使用需通过上述申请流程获得许可。

搜集汇总
数据集介绍
main_image_url
构建方式
ATD-Trans数据集基于已有的NAIST学术旅行日志数据集(ATD)及其子集ATD-MCL构建而成。研究团队首先从ATD中选取了海外旅行日志,按照ATD-MCL的标注准则,由两名母语为日语的专业标注员对地理实体提及和共指关系进行标注,并由五名标注员将其链接至OpenStreetMap(OSM)条目。随后,遵循ISO 17100:2015标准,由专业翻译公司对90篇涵盖日本国内外旅行的博客文章进行日英翻译,确保地理实体在源文和目标文中均被标记并与KB条目关联,最终整合为统一的数据集。
特点
该数据集的核心特点在于其地理锚定性,不仅涵盖了日本国内与海外旅行文本,还提供了细粒度的地理实体标注,包括提及识别、共指消解及与OSM知识库的链接。这使得研究者能够在文档级和地理实体级两个层次上评估机器翻译质量,尤其聚焦于文本所描述的地理区域(国内 vs. 海外)对翻译性能的影响。实验表明,模型在海外数据上的表现优于国内数据,且地理实体翻译难度是造成这一差异的主要因素。
使用方法
使用时,研究者可直接利用ATD-Trans进行日英机器翻译的评估与对比实验,尤其适用于分析模型的语言偏向(英语中心 vs. 日语增强)及地理区域对翻译质量的影响。通过基本提示(仅段落上下文或整篇文档上下文)或术语指定提示(如结合OSM条目名称),研究者可测量d-BLEU、COMET及术语准确率等指标。此外,该数据集也可用于地理文本处理的基础任务,如地理实体提及识别和地理编码,从而支持更广泛的地理信息应用研究。
背景与挑战
背景概述
ATD-Trans数据集由日本国立信息通信技术研究所与奈良先端科学技术大学院大学的研究人员于2025年创建,聚焦于地理文本的机器翻译质量评估。随着多语言地理信息访问需求的日益增长,准确翻译富含地理实体(如地名、设施名)的文本成为关键挑战。该数据集以日语旅行博客为基础,涵盖日本国内与海外旅行内容,构建了包含地理实体标注和英文翻译的平行语料库。通过深入分析翻译质量在模型语言偏向和地理区域维度上的差异,ATD-Trans为提升地理信息公平获取提供了重要基准,推动了跨语言地理文本处理技术的发展。
当前挑战
ATD-Trans所应对的核心挑战在于地理文本中地理实体的准确翻译,这直接影响多语言信息访问的公平性。地理实体因常隐含位置信息、存在歧义及书写变体而难以处理,且其翻译质量显著受限于模型的语言偏向与训练数据偏差。在数据集构建过程中,挑战尤为突出:海外旅行博客中地理实体的标注需覆盖多样区域,而翻译工作需确保实体的专业一致性,同时兼顾文档级上下文以消解歧义。实验表明,日本国内地理文本的翻译难度显著高于海外文本,地理实体成为主要翻译瓶颈,凸显了针对性优化的迫切需求。
常用场景
经典使用场景
在地理文本机器翻译研究领域,ATD-Trans数据集的核心用途在于评估和提升日英旅行游记翻译中地理实体(如地名、设施名)的翻译质量。该数据集通过精细的地理标注,为研究者提供了从整体篇章到地理实体级别的多维度评估能力,尤其适用于分析机器翻译系统对本土与海外目的地文本中地理实体翻译的准确性差异。其独特的设计使得研究者能够系统性地探究模型语言偏好(如英语中心模型与日语增强模型)以及地理区域因素对翻译性能的影响,从而推动地理信息多语言无障碍获取的技术进步。
实际应用
在实际应用层面,ATD-Trans直接服务于旅游管理与灾害应急等依赖地理信息的多语言场景。通过提升旅游博文中地名、设施名的翻译精度,该数据集有助于打造更可靠的多语言旅游导览系统,使非日语使用者能够平等获取日本本土的深度旅行资讯。在灾害管理方面,精准的地理实体翻译能够确保疏散指引、避难所信息等重要内容在不同语言用户间准确传递,从而避免因翻译偏差导致的信息获取不平等,显著提升跨语言应急响应的实效性与包容性。
衍生相关工作
该数据集衍生了一系列富有影响力的研究工作,推动了地理文本处理与机器翻译的交叉创新。基于ATD-Trans,研究者深入探索了地理实体识别与地理编码等基础任务在跨语言场景下的表现,揭示了模型在日语地名认知上的局限性。同时,该数据集催生了关于知识库增强翻译提示的研究,发现准确的地名对照信息能显著提升翻译质量,而不匹配的地名术语反而会带来性能退化。这些成果不仅丰富了实体感知机器翻译的理论框架,也为后续构建更鲁棒的地理知识增强翻译系统奠定了重要基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作