five

asi/wikitext_fr

收藏
Hugging Face2022-10-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/asi/wikitext_fr
下载链接
链接失效反馈
官方服务:
资源简介:
Wikitext-fr语言建模数据集包含从法语维基百科的“优质文章”或“好文章”中提取的超过7000万个标记。该数据集旨在与Stephen Merity等人提出的英语基准数据集相媲美。数据集的结构包括从维基百科文章中提取的段落,分为训练集、验证集和测试集。数据集的创建目的是为了评估法语模型的性能,使用与英语模型相似的标准。数据集的使用受Creative Commons Attribution-ShareAlike License许可。
提供机构:
asi
原始信息汇总

数据集概述

数据集描述

  • 摘要: Wikitext-fr 语言建模数据集包含超过7000万法语维基百科文章的标记,这些文章被分类为“优质文章”或“良好文章”。该数据集旨在与Stephen Merity等人的英语基准相似。
  • 支持的任务和排行榜:
    • 语言建模: 用于评估模型的生成能力,成功通常通过低困惑度来衡量。

数据集结构

  • 数据实例: 数据集由维基百科文章的段落聚合而成。
  • 数据字段:
    • 段落: 来自原始维基百科文章的段落。
  • 数据分割: 数据集被分割为训练/验证/测试集。

数据集创建

  • 数据收集和规范化: 使用维基百科API收集文章,未进行特定预处理。
  • 注释过程: 无注释。
  • 源语言生产者: 维基百科编辑者。

许可证信息

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作