lbourdois/en-fr-nyu-dl-course-corpus
收藏Hugging Face2023-11-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lbourdois/en-fr-nyu-dl-course-corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是由Loïck Bourdois翻译的NYU深度学习课程的英文内容,生成了超过3000条平行数据,并且整个语料库已经过手动检查以确保数据的良好对齐。英文数据来自约190个不同的人,这影响了文本的均匀性,而法文翻译由一个人完成,以确保翻译的均匀性。数据对齐是在段落级别而非句子级别进行的。
该数据集是由Loïck Bourdois翻译的NYU深度学习课程的英文内容,生成了超过3000条平行数据,并且整个语料库已经过手动检查以确保数据的良好对齐。英文数据来自约190个不同的人,这影响了文本的均匀性,而法文翻译由一个人完成,以确保翻译的均匀性。数据对齐是在段落级别而非句子级别进行的。
提供机构:
lbourdois
原始信息汇总
数据集信息
数据集概述
- 数据集名称: en-fr-nyu-dl-course-corpus
- 数据文件: en-fr-nyu-dl-course-corpus.csv
- 分隔符: ;
- 许可协议: cc-by-4.0
- 任务类别: 翻译
- 语言: 法语 (fr), 英语 (en)
- 数据规模: 1K<n<10K
数据集详情
- 来源: 由Loïck Bourdois翻译的Yann Le Cun和Alfredo Canziani在纽约大学开设的课程内容。
- 数据量: 超过3000组平行数据。
- 校验: 整个语料库已手动检查,确保数据对齐良好。
- 文本特点:
- 英语数据来自约190人,因此文本的同质性有所不同。
- 法语翻译由一人完成,以解决上述问题并提出同质翻译。
- 数据不是逐字翻译,而是概念翻译。
- 数据对齐不是在句子级别,而是在段落级别。
使用方法
python from datasets import load_dataset dataset = load_dataset("lbourdois/en-fr-nyu-dl-course-corpus", sep=";")
引用
@misc{nyudlcourseinfrench, author = {Canziani, Alfredo and LeCun, Yann and Bourdois, Loïck}, title = {Cours d’apprentissage profond de la New York University}, howpublished = "url{https://lbourdois.github.io/cours-dl-nyu/}", year = {2023}"}
许可
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



