asi/wikitext_fr

收藏

Hugging Face2022-10-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/asi/wikitext_fr

下载链接

链接失效反馈

官方服务：

资源简介：

Wikitext-fr语言建模数据集包含从法语维基百科的“优质文章”或“好文章”中提取的超过7000万个标记。该数据集旨在与Stephen Merity等人提出的英语基准数据集相媲美。数据集的结构包括从维基百科文章中提取的段落，分为训练集、验证集和测试集。数据集的创建目的是为了评估法语模型的性能，使用与英语模型相似的标准。数据集的使用受Creative Commons Attribution-ShareAlike License许可。

提供机构：

asi

原始信息汇总

数据集概述

名称: Wikitext-fr
语言: 法语 (fr-FR)
许可证: Creative Commons Attribution-ShareAlike License
多语言性: 单语种
数据集大小: 未知
源数据: 原始数据
任务类别: 序列建模
任务ID: 语言建模

数据集描述

摘要: Wikitext-fr 语言建模数据集包含超过7000万法语维基百科文章的标记，这些文章被分类为“优质文章”或“良好文章”。该数据集旨在与Stephen Merity等人的英语基准相似。
支持的任务和排行榜:
- 语言建模: 用于评估模型的生成能力，成功通常通过低困惑度来衡量。

数据集结构

数据实例: 数据集由维基百科文章的段落聚合而成。
数据字段:
- 段落: 来自原始维基百科文章的段落。
数据分割: 数据集被分割为训练/验证/测试集。

数据集创建

数据收集和规范化: 使用维基百科API收集文章，未进行特定预处理。
注释过程: 无注释。
源语言生产者: 维基百科编辑者。

许可证信息

许可证: Creative Commons Attribution-ShareAlike License

5,000+

优质数据集

54 个

任务类型

进入经典数据集

© 2023-2025 上海数据发展科技有限责任公司版权所有

沪ICP备17003045号-15 沪公网安备31010402336585号

二维码

社区交流群

面向社区/商业的数据集话题

二维码

科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作