five

Legal French–Japanese Parallel Corpus – Evaluation Sample

收藏
Snowflake2026-01-08 更新2026-01-11 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZTWZKSTAT
下载链接
链接失效反馈
官方服务:
资源简介:
This data product is an evaluation sample of a French–Japanese legal parallel corpus curated from professionally translated legal documents. <p><br/></p> Scope: The dataset focuses on sentence-level French–Japanese parallel text from legal and contractual materials, including corporate, commercial, and regulatory language. All sentence pairs are manually aligned and normalized for linguistic consistency. <p><br/></p> Scale: This sample contains approximately 13,000 aligned sentence pairs and is provided as a subset of a larger proprietary legal corpus currently under expansion. The full production dataset is planned to exceed 20,000 sentence pairs. <p><br/></p> Value: The dataset is designed for evaluation and benchmarking purposes, enabling organizations to assess translation quality, sentence alignment accuracy, and domain-specific linguistic consistency. Typical use cases include machine translation evaluation, legal NLP benchmarking, and controlled LLM assessment. <p><br/></p> The dataset does not contain personal data and is not intended for large-scale model training. It is provided as a high-quality evaluation sample to support research, testing, and comparative analysis workflows. <p><br/></p>
提供机构:
ISHIDA International
创建时间:
2026-01-08
原始信息汇总

Legal French–Japanese Parallel Corpus – Evaluation Sample

概述

这是一个用于评估和基准测试的法语-日语法律平行语料库评估样本,由专业翻译的法律文件整理而成。

范围

数据集专注于法律和合同材料(包括公司、商业和监管语言)中的句子级法语-日语平行文本。所有句子对均经过手动对齐和规范化,以确保语言一致性。

规模

此样本包含大约13,000个对齐的句子对,是一个正在扩展的更大专有法律语料库的子集。完整的生产数据集计划超过20,000个句子对。

价值

该数据集专为评估和基准测试目的而设计,使组织能够评估翻译质量、句子对齐准确性和特定领域的语言一致性。典型用例包括机器翻译评估、法律NLP基准测试和受控LLM评估。 数据集不包含个人数据,不适用于大规模模型训练。它作为高质量的评估样本提供,以支持研究、测试和比较分析工作流程。

业务需求

数据质量与清洗

该数据集通过提供高质量的法语-日语法律平行语料库来支持机器学习工作流程,用于评估、基准测试和质量保证目的。它旨在帮助组织评估法律NLP、LLM评估和机器翻译研究中的翻译质量、句子对齐准确性和特定领域的语言一致性。该数据集不包含个人数据,不适用于直接的大规模模型训练,而是用于受控的评估和基准测试场景。

数据字典

表名: VW_FR_JA_SAMPLE 列:

  • ID (Varchar)
  • SOURCE_FR (Varchar)
  • TARGET_JA (Varchar)

使用示例

预览法语-日语法律句子对

此示例查询展示了如何从样本语料库中探索对齐的法语-日语法律句子对。它可用于快速检查数据结构、对齐质量和语言一致性。 sql SELECT ID, SOURCE_FR, TARGET_JA FROM LEGAL_SAMPLE.VW_FR_JA_SAMPLE LIMIT 10;

类别

  • AI & ML
  • Data Quality and Cleansing

联系信息

  • 销售: info@ishida.fr
  • 支持: perso@ishida.fr

数据更新

静态数据

地理覆盖范围

全球

云区域可用性

AWS

  • Africa (Cape Town)
  • Asia Pacific (Jakarta)
  • Asia Pacific (Mumbai)
  • Asia Pacific (Osaka)
  • 48 More

法律条款

自定义

关于提供商 ISHIDA International

ISHIDA International 是一家专业的语言服务和数据提供商,专注于高质量的法语-日语和英语-日语翻译资产。在拥有超过25年的法律、医疗和技术翻译经验的基础上,我们整理平行语料库和评估数据集,专为LLM训练、机器翻译定制和多语言NLP研究而设计。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作