five

agentlans/en-fr

收藏
Hugging Face2025-03-07 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/agentlans/en-fr
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含大量英语-法语翻译对的数据库。它覆盖了基础法语、新闻、演讲(如TED演讲和学术会议)以及教育视频等内容。该数据库通过避免像Europarl和ECB这样的数据库中常见的法律、行政和官僚内容的偏见。数据经过了规范化、占位符替换和去重等处理步骤。数据集结构包括`raw.jsonl`、`train.jsonl`和`test.jsonl`等文件,每个文件包含`id`、`english`、`french`、`source`、`translation_quality`和`readability_grade`等字段。该数据库适用于机器翻译模型的训练和评估,以及自然语言处理、跨语言理解等相关领域的研究。

This dataset provides a large collection of English-French translation pairs. It covers various domains such as basic French, news, presentations (like TED talks and academic conferences), and educational videos. The dataset is processed with normalization, placeholder replacement, and deduplication. The dataset structure includes files like `raw.jsonl`, `train.jsonl`, and `test.jsonl`, each containing fields like `id`, `english`, `french`, `source`, `translation_quality`, and `readability_grade`. The dataset is suitable for training and evaluating machine translation models, as well as for research in natural language processing, cross-lingual understanding, and related fields.
提供机构:
agentlans
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作