RyokoExtra/SuperWIKI
收藏Hugging Face2023-11-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/RyokoExtra/SuperWIKI
下载链接
链接失效反馈官方服务:
资源简介:
SuperWIKI是一个专注于维基百科文章的数据集,主要用于语言建模任务。数据集包含英文内容,旨在为普通用户提供更简洁和重要的信息,避免维基百科中过多不相关或晦涩的内容。数据以gzip压缩的jsonl文件形式存储,未进行数据分割。数据集的创建者认为维基百科虽然是一个宝贵的资源,但其内容可能过于稀疏,包含了许多对普通用户不重要的文章。
SuperWIKI是一个专注于维基百科文章的数据集,主要用于语言建模任务。数据集包含英文内容,旨在为普通用户提供更简洁和重要的信息,避免维基百科中过多不相关或晦涩的内容。数据以gzip压缩的jsonl文件形式存储,未进行数据分割。数据集的创建者认为维基百科虽然是一个宝贵的资源,但其内容可能过于稀疏,包含了许多对普通用户不重要的文章。
提供机构:
RyokoExtra
原始信息汇总
数据集概述
数据集描述
- 名称: SuperWIKI
- 概述: SuperWIKI是一个专注于维基百科文章的数据集,主要用于语言建模任务。
支持的任务
- 语言建模
语言
- 英语
数据集结构
- 文件格式: 所有文件位于gzipd jsonl文件中。
数据实例
数据字段
- 待定
数据集创建
来源数据
- 初始数据收集和标准化: 待定
- 源语言生产者: 待定
注释
- 注释过程: 待定
- 注释者: 待定
个人和敏感信息
- 待定
使用数据注意事项
- 社会影响: 待定
- 偏见讨论: 待定
- 其他已知限制: 待定
附加信息
数据集管理员
- KaraKaraWitch
许可信息
- 数据集文本和图像多数采用Creative Commons Attribution-ShareAlike 3.0 Unported License和GNU Free Documentation License。部分文本仅适用于CC BY-SA许可。
引用信息
@misc{superwiki, title = {SuperWIKI: Wikipedia for commoners.}, author = {KaraKaraWitch}, year = {2023}, howpublished = {url{https://huggingface.co/datasets/RyokoExtra/SuperWIKI}}, }
贡献者
- 数据收集: @KaraKaraWitch (Twitter)
- 计算资源提供: @sirneggles (Twitter)
搜集汇总
背景与挑战
背景概述
SuperWIKI是一个专注于英文维基百科文章的数据集,主要用于语言建模任务,旨在为普通用户提供更简洁和重要的信息,避免不相关或晦涩内容。数据以gzip压缩的jsonl文件形式存储,未进行数据分割,其创建基于对维基百科内容可能过于稀疏的考量。
以上内容由遇见数据集搜集并总结生成



