five

croissantllm/croissant_dataset

收藏
Hugging Face2024-10-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/croissantllm/croissant_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
CroissantLLM是一个真正的双语法语-英语语言模型数据集,主要用于翻译、文本生成、文本到文本生成和填充掩码等任务。该数据集支持法语和英语两种语言,数据规模在100B到1T之间。数据集的引用信息、许可证说明以及一个关于数据分割的注释也在README中提供。

CroissantLLM是一个真正的双语法语-英语语言模型数据集,主要用于翻译、文本生成、文本到文本生成和填充掩码等任务。该数据集支持法语和英语两种语言,数据规模在100B到1T之间。数据集的引用信息、许可证说明以及一个关于数据分割的注释也在README中提供。
提供机构:
croissantllm
原始信息汇总

CroissantLLM 数据集概述

任务类别

  • 翻译
  • 文本生成
  • 文本到文本生成
  • 填充掩码

语言

  • 法语
  • 英语

数据集大小

  • 100B<n<1T

许可证

数据集在此处重新分发时,需遵守其原始收集时的许可证。所有许可证信息详见技术报告的 Data 部分。

引用

@misc{faysse2024croissantllm, title={CroissantLLM: A Truly Bilingual French-English Language Model}, author={Manuel Faysse and Patrick Fernandes and Nuno M. Guerreiro and António Loison and Duarte M. Alves and Caio Corro and Nicolas Boizard and João Alves and Ricardo Rei and Pedro H. Martins and Antoni Bigata Casademunt and François Yvon and André F. T. Martins and Gautier Viaud and Céline Hudelot and Pierre Colombo}, year={2024}, eprint={2402.00786}, archivePrefix={arXiv}, primaryClass={cs.CL} }

备注

目前仅 english_660B_11 分割部分保持隐藏(直到 Canary 论文发布),但可根据请求提供。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作