Legal French–Japanese Parallel Corpus – Evaluation Sample
收藏Legal French–Japanese Parallel Corpus – Evaluation Sample
概述
这是一个用于评估和基准测试的法语-日语法律平行语料库评估样本,由专业翻译的法律文件整理而成。
范围
数据集专注于法律和合同材料(包括公司、商业和监管语言)中的句子级法语-日语平行文本。所有句子对均经过手动对齐和规范化,以确保语言一致性。
规模
此样本包含大约13,000个对齐的句子对,是一个正在扩展的更大专有法律语料库的子集。完整的生产数据集计划超过20,000个句子对。
价值
该数据集专为评估和基准测试目的而设计,使组织能够评估翻译质量、句子对齐准确性和特定领域的语言一致性。典型用例包括机器翻译评估、法律NLP基准测试和受控LLM评估。 数据集不包含个人数据,不适用于大规模模型训练。它作为高质量的评估样本提供,以支持研究、测试和比较分析工作流程。
业务需求
数据质量与清洗
该数据集通过提供高质量的法语-日语法律平行语料库来支持机器学习工作流程,用于评估、基准测试和质量保证目的。它旨在帮助组织评估法律NLP、LLM评估和机器翻译研究中的翻译质量、句子对齐准确性和特定领域的语言一致性。该数据集不包含个人数据,不适用于直接的大规模模型训练,而是用于受控的评估和基准测试场景。
数据字典
表名: VW_FR_JA_SAMPLE 列:
- ID (Varchar)
- SOURCE_FR (Varchar)
- TARGET_JA (Varchar)
使用示例
预览法语-日语法律句子对
此示例查询展示了如何从样本语料库中探索对齐的法语-日语法律句子对。它可用于快速检查数据结构、对齐质量和语言一致性。 sql SELECT ID, SOURCE_FR, TARGET_JA FROM LEGAL_SAMPLE.VW_FR_JA_SAMPLE LIMIT 10;
类别
- AI & ML
- Data Quality and Cleansing
联系信息
- 销售: info@ishida.fr
- 支持: perso@ishida.fr
数据更新
静态数据
地理覆盖范围
全球
云区域可用性
AWS
- Africa (Cape Town)
- Asia Pacific (Jakarta)
- Asia Pacific (Mumbai)
- Asia Pacific (Osaka)
- 48 More
法律条款
自定义
关于提供商 ISHIDA International
ISHIDA International 是一家专业的语言服务和数据提供商,专注于高质量的法语-日语和英语-日语翻译资产。在拥有超过25年的法律、医疗和技术翻译经验的基础上,我们整理平行语料库和评估数据集,专为LLM训练、机器翻译定制和多语言NLP研究而设计。



