KorQuAD/squad_kor_v2
收藏数据集概述
数据集描述
数据集摘要
KorQuAD 2.0 是一个包含超过 100,000 对韩语问答数据集。与 KorQuAD 1.0 相比,主要有三点不同:一是给定的文档是一个完整的维基百科页面,而不仅仅是一两个段落;二是文档包含表格和列表,需要理解带有 HTML 标签的结构化文档;三是答案可以是覆盖单词、短语、段落、表格和列表的长文本。
支持的任务和排行榜
question-answering
语言
- 韩语
数据集结构
数据实例
数据集中的一个示例如下:
python {answer: {answer_start: 3873, html_answer_start: 16093, text: 20,890 표}, context: <!DOCTYPE html> <html> <head> <meta> <title>심규언 - 위키백과, 우리 모두의 백과사전</title>
<link> .....[omitted], id: 36615, question: 심규언은 17대 지방 선거에서 몇 표를 득표하였는가?, raw_html: <!DOCTYPE html> <html c ...[omitted], title: 심규언, url: https://ko.wikipedia.org/wiki/심규언}
数据字段
python {id: Value(dtype=string, id=None), title: Value(dtype=string, id=None), context: Value(dtype=string, id=None), question: Value(dtype=string, id=None), answer: {text: Value(dtype=string, id=None), answer_start: Value(dtype=int32, id=None), html_answer_start: Value(dtype=int32, id=None)}, url: Value(dtype=string, id=None), raw_html: Value(dtype=string, id=None)}
数据分割
- 训练集:83486
- 验证集:10165
数据集创建
数据来源
- 维基百科
其他信息
许可证信息
引用信息
plaintext @article{NODE09353166, author={Youngmin Kim,Seungyoung Lim;Hyunjeong Lee;Soyoon Park;Myungji Kim}, title={{KorQuAD 2.0: Korean QA Dataset for Web Document Machine Comprehension}}, booltitle={{Journal of KIISE 제47권 제6호}}, journal={{Journal of KIISE}}, volume={{47}}, issue={{6}}, publisher={The Korean Institute of Information Scientists and Engineers}, year={2020}, ISSN={{2383-630X}}, pages={577-586}, url={http://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE09353166}}



