lbourdois/en-fr-nyu-dl-course-corpus

Name: lbourdois/en-fr-nyu-dl-course-corpus
Creator: lbourdois
Published: 2023-11-11 14:09:15
License: 暂无描述

Hugging Face2023-11-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/lbourdois/en-fr-nyu-dl-course-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是由Loïck Bourdois翻译的NYU深度学习课程的英文内容，生成了超过3000条平行数据，并且整个语料库已经过手动检查以确保数据的良好对齐。英文数据来自约190个不同的人，这影响了文本的均匀性，而法文翻译由一个人完成，以确保翻译的均匀性。数据对齐是在段落级别而非句子级别进行的。

提供机构：

lbourdois

原始信息汇总

数据集信息

数据集概述

数据集名称: en-fr-nyu-dl-course-corpus
数据文件: en-fr-nyu-dl-course-corpus.csv
分隔符: ;
许可协议: cc-by-4.0
任务类别: 翻译
语言: 法语 (fr), 英语 (en)
数据规模: 1K<n<10K

数据集详情

来源: 由Loïck Bourdois翻译的Yann Le Cun和Alfredo Canziani在纽约大学开设的课程内容。
数据量: 超过3000组平行数据。
校验: 整个语料库已手动检查，确保数据对齐良好。
文本特点:
- 英语数据来自约190人，因此文本的同质性有所不同。
- 法语翻译由一人完成，以解决上述问题并提出同质翻译。
- 数据不是逐字翻译，而是概念翻译。
- 数据对齐不是在句子级别，而是在段落级别。

使用方法

python from datasets import load_dataset dataset = load_dataset("lbourdois/en-fr-nyu-dl-course-corpus", sep=";")

引用

@misc{nyudlcourseinfrench, author = {Canziani, Alfredo and LeCun, Yann and Bourdois, Loïck}, title = {Cours d’apprentissage profond de la New York University}, howpublished = "url{https://lbourdois.github.io/cours-dl-nyu/}", year = {2023}"}

许可

cc-by-4.0

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集