niilc-qa
收藏魔搭社区2025-11-02 更新2025-02-15 收录
下载链接:
https://modelscope.cn/datasets/sbintuitions/niilc-qa
下载链接
链接失效反馈官方服务:
资源简介:
評価スコアの再現性確保と SB Intuitions 修正版の公開用クローン
- ソース: [mynlp/niilc-qa on GitHub](https://github.com/mynlp/niilc-qa)
# NIILC Question Answering Dataset
> This project provides a dataset for supporting the development of question answering systems. The data includes questions and their answers, and meta information such as question types, clues to obtain answers, Wikipedia pages in which answers can be found, and SPARQL queries for JWO (Japanese Wikipedia Ontology).
- Homepage:
- 日本語: [https://mynlp.is.s.u-tokyo.ac.jp/niilc-qa/j_index.html](https://mynlp.is.s.u-tokyo.ac.jp/niilc-qa/j_index.html)
- 英語: [https://mynlp.is.s.u-tokyo.ac.jp/niilc-qa/](https://mynlp.is.s.u-tokyo.ac.jp/niilc-qa/)
## Licensing Information
[Creative Commons Attribution Share Alike 4.0 International](https://github.com/mynlp/niilc-qa/blob/master/LICENSE.txt)
## Citation Information
```
@inproceedings{sekine2003question,
title={Development of a question answering system focused on an encyclopedia},
author={Sekine, Satoshi},
booktitle={9th Annual Meeting of the Association for Natural Language Processing},
year={2003},
language={Japanese}
}
```
# Subsets
## default
- `qid` (`str`): 質問を一意識別するためのID
- `question` (`str`): 質問文
- `answers` (`list[str]`): 質問に対する回答のリスト
- (回答がない質問(`answers: ['-']`)は除外した)
### v1.1
- split: test を修正
- [NIILC-ECQA2015_test.xml](https://github.com/mynlp/niilc-qa/blob/master/data/NIILC-ECQA2015_test.xml) から D_3列を追加
- `D_3` (`str`): 考えられる解答数
- 正解文字列(`answers` の要素)の微修正
- e.g., セミコロンが全角で分割できていなかった正解文字列を分割して再登録(`['星条旗;古き栄光'] -> ['星条旗','古き栄光']`)
### v1.2
両方の split を修正
- 各質問に[ソース](https://github.com/mynlp/niilc-qa)からメタデータ列をすべて追加
- 各列の詳細は[ここ](https://github.com/mynlp/niilc-qa/blob/master/data/NIILC-ECQA2015_AnnotationDefinition.md)を参照
- split名を[ソース](https://github.com/mynlp/niilc-qa)に合わせて修正
- validation -> dev
- 列名を[ソース](https://github.com/mynlp/niilc-qa)に合わせて修正
- `qid` -> `id`
- `question` -> `text`
- dev の `answers` に対し、v1.1 の test と同様の修正を実施
- `text` と `answers` 内の文字列は NFKC正規化(未)
保障评测分数可复现性与SB Intuitions修正版公开克隆数据集
- 来源:GitHub上的mynlp/niilc-qa仓库(https://github.com/mynlp/niilc-qa)
# NIILC问答数据集
> 本项目提供用于支撑问答系统研发的数据集,数据包含问题与对应答案,以及各类元信息:问题类型、获取答案的线索、可找到答案的维基百科页面、针对JWO(日本维基百科本体,Japanese Wikipedia Ontology)的SPARQL查询语句。
- 项目主页:
- 日语版:https://mynlp.is.s.u-tokyo.ac.jp/niilc-qa/j_index.html
- 英语版:https://mynlp.is.s.u-tokyo.ac.jp/niilc-qa/
## 授权信息
采用知识共享署名-相同方式共享4.0国际许可协议(Creative Commons Attribution Share Alike 4.0 International),详情参见:https://github.com/mynlp/niilc-qa/blob/master/LICENSE.txt
## 引用信息
@inproceedings{sekine2003question,
title={以百科全书为依托的问答系统研发},
author={Sekine, Satoshi},
booktitle={第9届自然语言处理协会年会},
year={2003},
language={Japanese}
}
# 数据集子集
## 默认子集
- `qid`(字符串类型):用于唯一标识问题的标识符
- `question`(字符串类型):问题文本
- `answers`(字符串列表类型):问题对应答案的列表
- 注:已排除无答案的问题(即`answers: ['-']`的条目)
### v1.1版本
- 拆分集:修正了测试集(test)
- 从[NIILC-ECQA2015_test.xml](https://github.com/mynlp/niilc-qa/blob/master/data/NIILC-ECQA2015_test.xml)中新增`D_3`字段
- `D_3`(字符串类型):可预期的答案数量
- 对标准答案(即`answers`的元素)进行微调修正
- 示例:将原无法按全角分号分割的标准答案拆分后重新录入(如`['星条旗;古き栄光'] → ['星条旗','古き栄光']`)
### v1.2版本
- 修正了全部拆分集
- 为所有问题新增来自[来源仓库](https://github.com/mynlp/niilc-qa)的全部元数据字段
- 各字段的详细说明可参考:https://github.com/mynlp/niilc-qa/blob/master/data/NIILC-ECQA2015_AnnotationDefinition.md
- 按照来源仓库的规范修正拆分集名称:将`validation`更改为`dev`
- 按照来源仓库的规范修正字段名:
- `qid` → `id`
- `question` → `text`
- 对`dev`拆分集的`answers`字段执行与v1.1版本测试集相同的修正操作
- `text`与`answers`中的字符串尚未进行NFKC归一化处理
提供机构:
maas
创建时间:
2025-02-13



