Finnish-NLP/mc4_fi_cleaned
收藏Hugging Face2022-10-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Finnish-NLP/mc4_fi_cleaned
下载链接
链接失效反馈官方服务:
资源简介:
mC4 Finnish cleaned是mC4 Finnish原始数据集的清理版本,主要用于预训练芬兰语的语言模型和词表示。数据集包含多个字段,如URL、文本内容、时间戳以及通过KenLM模型计算的文本困惑度。数据集的语种为芬兰语,且为单语种数据集。
提供机构:
Finnish-NLP
原始信息汇总
数据集概述
数据集描述
数据集总结
- 名称: mC4 Finnish Cleaned
- 描述: 这是原始mC4芬兰语分段的清理版本,主要用于预训练芬兰语语言模型和词表示。
支持的任务和排行榜
- 任务: 文本生成、填充掩码
- 任务ID: 语言建模、掩码语言建模
语言
- 语言: 芬兰语
数据集结构
数据实例
- 信息: 待补充
数据字段
- 字段:
- url: 源url,字符串类型
- text: 文本内容,字符串类型
- timestamp: 时间戳,字符串类型
- perplexity_kenlm_full: 文本的困惑度,由KenLM模型计算,字符串类型
数据分割
- 分割: 训练、验证
数据集创建
数据来源
- 来源: 扩展自mc4
注释
- 信息: 待补充
个人和敏感信息
- 信息: 待补充
使用数据的考虑
社会影响
- 信息: 待补充
偏见讨论
- 信息: 待补充
其他已知限制
- 信息: 待补充
附加信息
数据集管理者
- 信息: 待补充
许可信息
- 信息: 待补充
引用信息
- 信息: 待补充



