five

boapps/vikwiki-quiz

收藏
Hugging Face2024-02-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/boapps/vikwiki-quiz
下载链接
链接失效反馈
官方服务:
资源简介:
--- task_categories: - question-answering language: - hu pretty_name: VIK Wiki quiz size_categories: - 1K<n<10K --- # VIK Wiki quiz ## Leírás VIK wikiről scrapelt kikérdező parsolva, `.jsonl` formátumban. A scrapelést/parsolást végző kód a itt a repo-ban megtalálható. ## Cél Én elsősorban LLM-ek tanításra/kiértékelésre gondoltam. ## Adatforrás Minden [VIK wiki](https://wiki.sch.bme.hu) kikérdező. ## Mezők - `title`: a két `==` közötti szövegrész. Szinte mindig meg van adva. Általában ez tartalmazza magát a kérdést. - `question`: a `title` és a `{{Kvízkérdés...}}` közti rész. Általában üres. Több kontextust adhat a címhez. - `answers`: a `#`-el kezdődő sorok. A lehetséges válaszok. - `correct_answers`: a helyes válaszok indexe (1-től). Mindig szám lista. - `type`: a kikérdező típusa, tehát hogy checkboxos/többválasztós (multi) vagy radiobuttonos/egyválaszos (single). - `score`: pontozás típusa. Általában üres, néha `-` (pontlevonás), illetve még `+` lehet. - `quiz_title`: a kvíz címe, amiből a kérdés származik. - `url`: a kvíz url-je, amiből a kérdés származik. - `file`: van, hogy a kérdéshez kép is tartozik, ebben az esetben ez a mező tartalmazza a képet. ## Adatminőség Nagyrészt jó, de lehetnek benne elgépelések/hibák. Ezen kívül még további szövegtisztításra szorul. ## Köszönetnyilvánítás Nagy köszönet a wikit fenntartó HAT-nak és a kvizeket szerkesztő hallgatóknak, nélkülük ez az adathalmaz nem jöhetett volna létre.
提供机构:
boapps
原始信息汇总

VIK Wiki quiz

描述

从VIK维基上抓取并解析的问答数据集,格式为.jsonl。抓取和解析的代码可以在该仓库中找到。

目的

主要用于LLM(大型语言模型)的训练和评估。

数据来源

所有数据来自VIK维基

字段

  • title: 两个==之间的文本部分。几乎总是给出。通常包含问题本身。
  • question: title{{Kvízkérdés...}}之间的部分。通常为空。可以提供更多上下文。
  • answers: 以#开头的行。可能的答案。
  • correct_answers: 正确答案的索引(从1开始)。总是数字列表。
  • type: 问答类型,即复选框/多选(multi)或单选按钮/单选(single)。
  • score: 评分类型。通常为空,有时为-(扣分),也可能为+
  • quiz_title: 问题来源的测验标题。
  • url: 问题来源的测验URL。
  • file: 如果问题附带图片,此字段包含图片。

数据质量

大部分数据质量良好,但可能存在拼写错误或错误。此外,还需要进一步的文本清理。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作