JEMHopQA
收藏魔搭社区2025-12-05 更新2025-02-15 收录
下载链接:
https://modelscope.cn/datasets/tokyotech-llm/JEMHopQA
下载链接
链接失效反馈官方服务:
资源简介:
# JEMHopQA
このデータセットは SB Intuitions様が公開されている [sbintuitions/JEMHopQA](https://huggingface.co/datasets/sbintuitions/JEMHopQA) を,評価フレームワーク swallow-evaluation-instruct で用いるためにクローンしたものです.
## 出典
* v1, v1.1, v1.2: [aiishii/JEMHopQA on GitHub](https://github.com/aiishii/JEMHopQA) の複製.
* v1.[1,2]-extended-answers: SB Intuitions 様が同義語や異表記の別解を追加したもの.
具体的には `answer: str` が `answers: List[str]` に変更され,オリジナルの正解および別解が `answers` に格納されている.
# JEMHopQA
> JEMHopQA (Japanese Explainable Multi-hop Question Answering) is a Japanese multi-hop QA dataset that can evaluate internal reasoning. It is a task that takes a question as input and generates an answer and derivations. Derivations are a set of derivation steps and is a semi-structured representation of relationships between entities. This dataset contains both compositional (linking information from two Wikipedia articles) and comparison (comparing information from two Wikipedia articles) questions.
## Licensing Information
[Creative Commons Attribution Share Alike 4.0 International](https://github.com/aiishii/JEMHopQA/blob/main/LICENSE)
## Citation Information
```
@inproceedings{ishii-etal-2024-jemhopqa-dataset,
title = "{JEMH}op{QA}: Dataset for {J}apanese Explainable Multi-Hop Question Answering",
author = "Ishii, Ai and
Inoue, Naoya and
Suzuki, Hisami and
Sekine, Satoshi",
editor = "Calzolari, Nicoletta and
Kan, Min-Yen and
Hoste, Veronique and
Lenci, Alessandro and
Sakti, Sakriani and
Xue, Nianwen",
booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)",
month = may,
year = "2024",
address = "Torino, Italia",
publisher = "ELRA and ICCL",
url = "https://aclanthology.org/2024.lrec-main.831",
pages = "9515--9525",
}
```
# Subsets
## v1
v1: [JEMHopQA/corpus on GitHub](https://github.com/aiishii/JEMHopQA/tree/main/corpus)
## v1.1
v1.1: [JEMHopQA/corpus_ver1.1 on GitHub](https://github.com/aiishii/JEMHopQA/tree/main/corpus_ver1.1)
- `qid` (`str`): Unique identifier for each entry in the dataset.
- `type` (`str`): The category of the question ("comparison" or "compositional").
- `question` (`str`): The text of the question.
- `answer` (`str`): The correct answer to the question.
- `derivations` (`dict[str, list[str]]`): Knowledge triples for reasoning used to arrive at the answer.
- `page_ids` (`list[str]`): Identifiers for related Wikipedia pages.
- `time_dependent` (`bool`): Indicates whether the question/answer is time-sensitive.
## v1.1-extended-answers
- v1.1 の `answer` に別解を加え、`answers` (`list[str]`) に拡張したもの
- e.g., `"カリフォルニア州クパチーノ"` -> `["カリフォルニア州クパチーノ", "アメリカ合衆国カリフォルニア州クパチーノ", "アメリカ合衆国カリフォルニア州クパティーノ", "カリフォルニア州クパティーノ"]`
- split: validation のみ
- question と answrers は (未 NFKC 正規化)
# JEMHopQA
本数据集为复刻SB Intuitions团队发布的[sbintuitions/JEMHopQA](https://huggingface.co/datasets/sbintuitions/JEMHopQA),以适配评估框架`swallow-evaluation-instruct`的使用需求。
## 数据源
* v1、v1.1、v1.2版本:复刻自GitHub仓库[aiishii/JEMHopQA](https://github.com/aiishii/JEMHopQA)。
* v1.[1,2]-extended-answers版本:由SB Intuitions团队补充同义词、异名等备选答案的修订版本。具体而言,原字段`answer: str`被调整为`answers: List[str]`,原始标准答案及所有备选答案均存储于`answers`字段中。
# JEMHopQA
> JEMHopQA(日语可解释多跳问答数据集,Japanese Explainable Multi-hop Question Answering)是一款用于评估内部推理能力的日语多跳问答数据集。该任务以自然语言问题作为输入,要求生成对应答案及推理过程。推理过程(Derivations)指一组推理步骤,是实体间关系的半结构化表示形式。本数据集同时包含组合型(结合两篇维基百科文章的信息进行推理)与比较型(对比两篇维基百科文章中的信息)两类问题。
## 授权信息
采用[知识共享署名-相同方式共享4.0国际许可协议(Creative Commons Attribution Share Alike 4.0 International)](https://github.com/aiishii/JEMHopQA/blob/main/LICENSE)。
## 引用信息
@inproceedings{ishii-etal-2024-jemhopqa-dataset,
title = "{JEMH}op{QA}: 日语可解释多跳问答数据集(Dataset for {J}apanese Explainable Multi-Hop Question Answering)",
author = "Ishii, Ai 与 Inoue, Naoya 与 Suzuki, Hisami 与 Sekine, Satoshi",
editor = "Calzolari, Nicoletta 与 Kan, Min-Yen 与 Hoste, Veronique 与 Lenci, Alessandro 与 Sakti, Sakriani 与 Xue, Nianwen",
booktitle = "2024年国际计算语言学大会、语言资源与评估联合会议(LREC-COLING 2024)论文集",
month = may,
year = "2024",
address = "意大利都灵",
publisher = "ELRA与ICCL",
url = "https://aclanthology.org/2024.lrec-main.831",
pages = "9515--9525",
}
# 子集说明
## v1版本
对应GitHub仓库[JEMHopQA/corpus](https://github.com/aiishii/JEMHopQA/tree/main/corpus)中的数据集。
## v1.1版本
对应GitHub仓库[JEMHopQA/corpus_ver1.1](https://github.com/aiishii/JEMHopQA/tree/main/corpus_ver1.1)。
各字段说明如下:
- `qid`(字符串类型):数据集每条条目的唯一标识符。
- `type`(字符串类型):问题类别,可选值为“comparison(比较型)”或“compositional(组合型)”。
- `question`(字符串类型):问题文本。
- `answer`(字符串类型):问题的标准答案。
- `derivations`(字典类型,键为字符串,值为字符串列表):用于推导答案的知识三元组集合。
- `page_ids`(字符串列表类型):关联的维基百科页面标识符。
- `time_dependent`(布尔类型):标识该问题/答案是否具有时间敏感性。
## v1.1-extended-answers版本
在v1.1版本的基础上,为`answer`字段补充备选答案,将其扩展为`answers`(字符串列表类型)字段。
- 示例:原字段`"加利福尼亚州库比蒂诺"` 扩展为 `["加利福尼亚州库比蒂诺", "美利坚合众国加利福尼亚州库比蒂诺", "美利坚合众国加利福尼亚州库帕蒂诺", "加利福尼亚州库帕蒂诺"]`
- 数据划分:仅包含验证集(validation)。
- 问题文本与答案列表未经过NFKC标准化。
提供机构:
maas
创建时间:
2025-10-12



