boapps/vikwiki-quiz
收藏Hugging Face2024-02-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/boapps/vikwiki-quiz
下载链接
链接失效反馈官方服务:
资源简介:
---
task_categories:
- question-answering
language:
- hu
pretty_name: VIK Wiki quiz
size_categories:
- 1K<n<10K
---
# VIK Wiki quiz
## Leírás
VIK wikiről scrapelt kikérdező parsolva, `.jsonl` formátumban.
A scrapelést/parsolást végző kód a itt a repo-ban megtalálható.
## Cél
Én elsősorban LLM-ek tanításra/kiértékelésre gondoltam.
## Adatforrás
Minden [VIK wiki](https://wiki.sch.bme.hu) kikérdező.
## Mezők
- `title`: a két `==` közötti szövegrész. Szinte mindig meg van adva. Általában ez tartalmazza magát a kérdést.
- `question`: a `title` és a `{{Kvízkérdés...}}` közti rész. Általában üres. Több kontextust adhat a címhez.
- `answers`: a `#`-el kezdődő sorok. A lehetséges válaszok.
- `correct_answers`: a helyes válaszok indexe (1-től). Mindig szám lista.
- `type`: a kikérdező típusa, tehát hogy checkboxos/többválasztós (multi) vagy radiobuttonos/egyválaszos (single).
- `score`: pontozás típusa. Általában üres, néha `-` (pontlevonás), illetve még `+` lehet.
- `quiz_title`: a kvíz címe, amiből a kérdés származik.
- `url`: a kvíz url-je, amiből a kérdés származik.
- `file`: van, hogy a kérdéshez kép is tartozik, ebben az esetben ez a mező tartalmazza a képet.
## Adatminőség
Nagyrészt jó, de lehetnek benne elgépelések/hibák.
Ezen kívül még további szövegtisztításra szorul.
## Köszönetnyilvánítás
Nagy köszönet a wikit fenntartó HAT-nak és a kvizeket szerkesztő hallgatóknak, nélkülük ez az adathalmaz nem jöhetett volna létre.
提供机构:
boapps
原始信息汇总
VIK Wiki quiz
描述
从VIK维基上抓取并解析的问答数据集,格式为.jsonl。抓取和解析的代码可以在该仓库中找到。
目的
主要用于LLM(大型语言模型)的训练和评估。
数据来源
所有数据来自VIK维基。
字段
title: 两个==之间的文本部分。几乎总是给出。通常包含问题本身。question:title和{{Kvízkérdés...}}之间的部分。通常为空。可以提供更多上下文。answers: 以#开头的行。可能的答案。correct_answers: 正确答案的索引(从1开始)。总是数字列表。type: 问答类型,即复选框/多选(multi)或单选按钮/单选(single)。score: 评分类型。通常为空,有时为-(扣分),也可能为+。quiz_title: 问题来源的测验标题。url: 问题来源的测验URL。file: 如果问题附带图片,此字段包含图片。
数据质量
大部分数据质量良好,但可能存在拼写错误或错误。此外,还需要进一步的文本清理。



