asi/wikitext_fr
收藏Hugging Face2022-10-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/asi/wikitext_fr
下载链接
链接失效反馈官方服务:
资源简介:
Wikitext-fr语言建模数据集包含从法语维基百科的“优质文章”或“好文章”中提取的超过7000万个标记。该数据集旨在与Stephen Merity等人提出的英语基准数据集相媲美。数据集的结构包括从维基百科文章中提取的段落,分为训练集、验证集和测试集。数据集的创建目的是为了评估法语模型的性能,使用与英语模型相似的标准。数据集的使用受Creative Commons Attribution-ShareAlike License许可。
提供机构:
asi
原始信息汇总
数据集概述
- 名称: Wikitext-fr
- 语言: 法语 (
fr-FR) - 许可证: Creative Commons Attribution-ShareAlike License
- 多语言性: 单语种
- 数据集大小: 未知
- 源数据: 原始数据
- 任务类别: 序列建模
- 任务ID: 语言建模
数据集描述
- 摘要: Wikitext-fr 语言建模数据集包含超过7000万法语维基百科文章的标记,这些文章被分类为“优质文章”或“良好文章”。该数据集旨在与Stephen Merity等人的英语基准相似。
- 支持的任务和排行榜:
语言建模: 用于评估模型的生成能力,成功通常通过低困惑度来衡量。
数据集结构
- 数据实例: 数据集由维基百科文章的段落聚合而成。
- 数据字段:
段落: 来自原始维基百科文章的段落。
- 数据分割: 数据集被分割为训练/验证/测试集。
数据集创建
- 数据收集和规范化: 使用维基百科API收集文章,未进行特定预处理。
- 注释过程: 无注释。
- 源语言生产者: 维基百科编辑者。



