five

euirim/goodwiki

收藏
Hugging Face2023-09-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/euirim/goodwiki
下载链接
链接失效反馈
官方服务:
资源简介:
GoodWiki是一个包含179百万个标记的英文维基百科文章数据集,这些文章于2023年9月4日被维基百科编辑标记为“Good”或“Featured”。数据集以GitHub风格的Markdown格式提供,保留了列表、代码块、数学公式和块引用等布局特性。每篇文章都附有简短的描述和相关的分类。数据集的目标是改进开源NLP项目中的语言建模、摘要和指令调优。
提供机构:
euirim
原始信息汇总

GoodWiki 数据集

概述

GoodWiki 是一个包含 179 百万个标记的英语维基百科文章数据集,这些文章在 2023 年 9 月 4 日被维基百科编辑标记为 GoodFeatured。数据集以 GitHub-flavored Markdown 格式提供这些文章,保留了列表、代码块、数学和块引用等布局特征,与许多其他公开的维基百科数据集不同。

数据集组成

数据集包含 44,754 行,存储在一个 482.7 MB 的 snappy 压缩 Parquet 文件中。每行包含以下字段:

  • pageid (int64): 文章的维基百科 ID。
  • title (string): 文章标题。
  • revid (int64): 使用的修订版本的维基百科 ID。
  • description (string | null): 由维基百科贡献者编写的文章的简短描述/摘要。
  • categories (list[string]): 文章的维基百科分类。
  • markdown (string): 文章内容的 GitHub-flavored Markdown 格式。

示例行(JSON 格式): json { "pageid": 40961074, "title": "Attarsiya", "revid": 1164804042, "description": "Military leader of Ahhiya", "categories": [ "Ancient Anatolia", "Greek military leaders", "Mycenaean Greeks" ], "markdown": "Attarsiya was a 15th–14th century BCE military leader of Ahhiya. In the Hittite archives of circa 1400 BCE, he is described as a "man of Ahhiya", a country identified with the Achaeans and Mycenaean Greece. The campaigns of Attarsiya, as well as his conflict with the Hittite vassal, Madduwatta, represent the first recorded Mycenaean Greek military activity on the Anatolian mainland, as well as the first conflict between Achaeans and Hittites..." }

markdown 字段包含 179,198,101 个使用 HuggingFace 的预训练 facebook/opt-350m 分词器分词的标记,811,791,686 个字符和 132,691,055 个单词。

语言

虽然文章取自英语维基百科,但有时也包含其他语言的小片段以及在文章开头频繁使用的 国际音标。一些文章还包括伪代码以及流行编程语言的代码块。

Markdown 细节

GoodWiki 文章遵循 GitHub-flavored Markdown 规范,包括块引用、代码块和列表。粗体、斜体、下划线和删除线已被移除,因为它们在数学/计算文章中引入了大量噪音。

一些 Markdown 细节值得强调:

  • 数学:数学模板和 XML 标签中的内容用 $ 分隔符包围。
  • 上标/下标:上标和下标分别用 <sup></sup><sub></sub> 标签表示。
  • $ 和 #:美元符号和井号用 `` 转义,以避免干扰数学和标题语法。

方法论

在 2023 年 9 月 4 日晚上,我们通过 Query API 下载了与 GoodFeatured 类别相关的主命名空间 (ns=0) 中的文章的 wikicode。

经过一些预处理,包括移除注释、应用魔法代码和移除未识别或不必要的模板标签,我们将生成的代码发送到维基百科的 Expandtemplates API。这个端点将模板标签转换为 HTML 和纯文本。我们选择要转换的模板是通过统计数据集中使用的所有模板并选择那些不罕见、不用于引用且不用于侧边栏(如信息框和表格)的模板。

Expandtemplates 输出然后进行后处理。在此阶段,我们移除与引用相关的部分(例如 Sources Cited),从 wikilinks 和外部链接中提取文本,删除媒体链接,并处理 HTML 标签。后处理的输出然后使用 Pandoc 转换为 GitHub-flavored Markdown。我们还丢弃了 Pandoc 检测到的具有损坏 wikicode 的文章(n=125)。

然后使用正则表达式清理 Markdown 输出,以移除过多的空白、空列表项、不必要的转义并解决 Pandoc 转换的其他问题。我们将 Markdown 输出的 Unicode 规范化为组合形式(NFKC)。

限制

  • 化学方程式有时包含不必要的换行符等格式问题。
  • 在关于古代文明和语言的文章中,偶尔会包含罕见的 Unicode 字符。
  • 在极少数情况下,书籍/文章名称可能从 Markdown 中缺失,因为它们在 wikicode 中被视为引用。
  • 一些文章中缺少通货膨胀数据。
  • 由于移除表格/框,一些文章可能包含空部分。
  • 一些代码块使用缩进而不是正式的代码块表示。
  • 允许转换的模板子集可能需要更新以用于未来的数据转储。

未来工作

如果有时间,我们希望将这种仔细的转换/生成过程应用于所有英语维基百科文章,这将需要我们的转换脚本更快且更好地并行化。我们还希望从页面中提取其他信息,如信息框中的条目,这些信息可能对问答和指令调整应用程序有用。

许可证

数据集及其伴随的 代码MIT 许可证 下授权。必须单独下载的 Pandoc 是 GPL 许可的。

引用

如果您在研究或项目中使用 GoodWiki 数据集,请使用以下引用: tex @misc{GoodWiki, title = {GoodWiki Dataset}, author = {Choi, Euirim}, howpublished = {url{https://www.github.com/euirim/goodwiki}}, month = {September}, year = {2023} }

反馈和贡献

欢迎通过拉取请求和讨论进行贡献。如果您不知道如何帮助改进这个项目,请查看 未来工作 部分。

这个数据集对您的工作有用吗?请告诉我们。我们很乐意展示您的项目 :)

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作