five

lbourdois/en-fr-nyu-dl-course-corpus

收藏
Hugging Face2023-11-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lbourdois/en-fr-nyu-dl-course-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是由Loïck Bourdois翻译的NYU深度学习课程的英文内容,生成了超过3000条平行数据,并且整个语料库已经过手动检查以确保数据的良好对齐。英文数据来自约190个不同的人,这影响了文本的均匀性,而法文翻译由一个人完成,以确保翻译的均匀性。数据对齐是在段落级别而非句子级别进行的。

该数据集是由Loïck Bourdois翻译的NYU深度学习课程的英文内容,生成了超过3000条平行数据,并且整个语料库已经过手动检查以确保数据的良好对齐。英文数据来自约190个不同的人,这影响了文本的均匀性,而法文翻译由一个人完成,以确保翻译的均匀性。数据对齐是在段落级别而非句子级别进行的。
提供机构:
lbourdois
原始信息汇总

数据集信息

数据集概述

  • 数据集名称: en-fr-nyu-dl-course-corpus
  • 数据文件: en-fr-nyu-dl-course-corpus.csv
  • 分隔符: ;
  • 许可协议: cc-by-4.0
  • 任务类别: 翻译
  • 语言: 法语 (fr), 英语 (en)
  • 数据规模: 1K<n<10K

数据集详情

  • 来源: 由Loïck Bourdois翻译的Yann Le Cun和Alfredo Canziani在纽约大学开设的课程内容。
  • 数据量: 超过3000组平行数据。
  • 校验: 整个语料库已手动检查,确保数据对齐良好。
  • 文本特点:
    • 英语数据来自约190人,因此文本的同质性有所不同。
    • 法语翻译由一人完成,以解决上述问题并提出同质翻译。
    • 数据不是逐字翻译,而是概念翻译。
    • 数据对齐不是在句子级别,而是在段落级别。

使用方法

python from datasets import load_dataset dataset = load_dataset("lbourdois/en-fr-nyu-dl-course-corpus", sep=";")

引用

@misc{nyudlcourseinfrench, author = {Canziani, Alfredo and LeCun, Yann and Bourdois, Loïck}, title = {Cours d’apprentissage profond de la New York University}, howpublished = "url{https://lbourdois.github.io/cours-dl-nyu/}", year = {2023}"}

许可

cc-by-4.0

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作