five

Finnish-NLP/mc4_fi_cleaned

收藏
Hugging Face2022-10-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Finnish-NLP/mc4_fi_cleaned
下载链接
链接失效反馈
官方服务:
资源简介:
mC4 Finnish cleaned是mC4 Finnish原始数据集的清理版本,主要用于预训练芬兰语的语言模型和词表示。数据集包含多个字段,如URL、文本内容、时间戳以及通过KenLM模型计算的文本困惑度。数据集的语种为芬兰语,且为单语种数据集。
提供机构:
Finnish-NLP
原始信息汇总

数据集概述

数据集描述

数据集总结

  • 名称: mC4 Finnish Cleaned
  • 描述: 这是原始mC4芬兰语分段的清理版本,主要用于预训练芬兰语语言模型和词表示。

支持的任务和排行榜

  • 任务: 文本生成、填充掩码
  • 任务ID: 语言建模、掩码语言建模

语言

  • 语言: 芬兰语

数据集结构

数据实例

  • 信息: 待补充

数据字段

  • 字段:
    • url: 源url,字符串类型
    • text: 文本内容,字符串类型
    • timestamp: 时间戳,字符串类型
    • perplexity_kenlm_full: 文本的困惑度,由KenLM模型计算,字符串类型

数据分割

  • 分割: 训练、验证

数据集创建

数据来源

  • 来源: 扩展自mc4

注释

  • 信息: 待补充

个人和敏感信息

  • 信息: 待补充

使用数据的考虑

社会影响

  • 信息: 待补充

偏见讨论

  • 信息: 待补充

其他已知限制

  • 信息: 待补充

附加信息

数据集管理者

  • 信息: 待补充

许可信息

  • 信息: 待补充

引用信息

  • 信息: 待补充
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作