five

Jotschi/wikipedia_knowledge_base

收藏
Hugging Face2024-07-11 更新2024-07-13 收录
下载链接:
https://hf-mirror.com/datasets/Jotschi/wikipedia_knowledge_base
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从选定的维基百科文章中提取的1,998,215个事实。数据集由Jotschi策划,语言为德语,是通过LLM处理德国维基百科20231101.de数据集的一个子集创建的。请注意,LLM处理过程可能会扭曲提取的事实,因此无法保证提取事实的正确性。

The dataset contains 1,998,215 extracted facts from a subset of selected Wikipedia articles. Curated by Jotschi, the dataset was created using LLM processing a subset of the German Wikipedia 20231101.de dataset. It is primarily used for German text generation, text-to-text generation, and text retrieval tasks. Note that the LLM process can distort the extracted facts, and no guarantee can be made regarding the correctness of the extracted facts.
提供机构:
Jotschi
原始信息汇总

数据集卡片:Wikipedia知识库

数据集描述

  • 名称: Wikipedia知识库
  • 语言: 德语
  • 标签: 德语, 合成数据
  • 创建者: Jotschi
  • 注释创建者: 机器生成
  • 大小类别: n<61k
  • 任务类别: 文本生成, 文本到文本生成, 文本检索

数据集创建

数据示例

json { "title": "Brocken", "url": "https://de.wikipedia.org/wiki/Brocken", "id": "1228103", "facts": [ { "text": "Der Brocken ist ein Berg in Deutschlands Mitte." }, { "text": "Der Brocken ist der höchste Berg im Harz mit 1141 Metern." }, { "text": "Die Höhe des Brockens wurde 1849 genau gemessen: 1141 m." }, { "text": "Bis 1989 wurde der Brocken oft mit 1142 m Höhe angegeben, weil ein 1 m hoher Stein dafür sorgte." }, { "text": "Mitte der 1990er Jahre wurde am höchsten Punkt des Brockens eine Granitplatte mit 1142 m Höhe platziert." }, { "text": "Der Brocken hat eine Größe von 60,23 km²." }, { "text": "Die Sonne geht an der Sommersonnenwende hinter dem Brocken unter." }, { "text": "Man kann vom Gehrdener Berg bei Gehrden zur Wintersonnenwende die Sonne zwischen Brocken und Wurmberg aufgehen sehen." }, { "text": "Die Himmelsscheibe von Nebra wurde in der Bronzezeit am Mittelberg benutzt." }, … ] }

免责声明

  • 数据准确性: 由于LLM处理可能导致提取的事实失真,无法保证提取事实的正确性。
  • 数据子集: 仅处理了完整的20231101.de维基百科数据集的一个子集。
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作