five

JEMHopQA

收藏
魔搭社区2025-12-05 更新2025-02-15 收录
下载链接:
https://modelscope.cn/datasets/tokyotech-llm/JEMHopQA
下载链接
链接失效反馈
官方服务:
资源简介:
# JEMHopQA このデータセットは SB Intuitions様が公開されている [sbintuitions/JEMHopQA](https://huggingface.co/datasets/sbintuitions/JEMHopQA) を,評価フレームワーク swallow-evaluation-instruct で用いるためにクローンしたものです. ## 出典 * v1, v1.1, v1.2: [aiishii/JEMHopQA on GitHub](https://github.com/aiishii/JEMHopQA) の複製. * v1.[1,2]-extended-answers: SB Intuitions 様が同義語や異表記の別解を追加したもの. 具体的には `answer: str` が `answers: List[str]` に変更され,オリジナルの正解および別解が `answers` に格納されている. # JEMHopQA > JEMHopQA (Japanese Explainable Multi-hop Question Answering) is a Japanese multi-hop QA dataset that can evaluate internal reasoning. It is a task that takes a question as input and generates an answer and derivations. Derivations are a set of derivation steps and is a semi-structured representation of relationships between entities. This dataset contains both compositional (linking information from two Wikipedia articles) and comparison (comparing information from two Wikipedia articles) questions. ## Licensing Information [Creative Commons Attribution Share Alike 4.0 International](https://github.com/aiishii/JEMHopQA/blob/main/LICENSE) ## Citation Information ``` @inproceedings{ishii-etal-2024-jemhopqa-dataset, title = "{JEMH}op{QA}: Dataset for {J}apanese Explainable Multi-Hop Question Answering", author = "Ishii, Ai and Inoue, Naoya and Suzuki, Hisami and Sekine, Satoshi", editor = "Calzolari, Nicoletta and Kan, Min-Yen and Hoste, Veronique and Lenci, Alessandro and Sakti, Sakriani and Xue, Nianwen", booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)", month = may, year = "2024", address = "Torino, Italia", publisher = "ELRA and ICCL", url = "https://aclanthology.org/2024.lrec-main.831", pages = "9515--9525", } ``` # Subsets ## v1 v1: [JEMHopQA/corpus on GitHub](https://github.com/aiishii/JEMHopQA/tree/main/corpus) ## v1.1 v1.1: [JEMHopQA/corpus_ver1.1 on GitHub](https://github.com/aiishii/JEMHopQA/tree/main/corpus_ver1.1) - `qid` (`str`): Unique identifier for each entry in the dataset. - `type` (`str`): The category of the question ("comparison" or "compositional"). - `question` (`str`): The text of the question. - `answer` (`str`): The correct answer to the question. - `derivations` (`dict[str, list[str]]`): Knowledge triples for reasoning used to arrive at the answer. - `page_ids` (`list[str]`): Identifiers for related Wikipedia pages. - `time_dependent` (`bool`): Indicates whether the question/answer is time-sensitive. ## v1.1-extended-answers - v1.1 の `answer` に別解を加え、`answers` (`list[str]`) に拡張したもの - e.g., `"カリフォルニア州クパチーノ"` -> `["カリフォルニア州クパチーノ", "アメリカ合衆国カリフォルニア州クパチーノ", "アメリカ合衆国カリフォルニア州クパティーノ", "カリフォルニア州クパティーノ"]` - split: validation のみ - question と answrers は (未 NFKC 正規化)

# JEMHopQA 本数据集为复刻SB Intuitions团队发布的[sbintuitions/JEMHopQA](https://huggingface.co/datasets/sbintuitions/JEMHopQA),以适配评估框架`swallow-evaluation-instruct`的使用需求。 ## 数据源 * v1、v1.1、v1.2版本:复刻自GitHub仓库[aiishii/JEMHopQA](https://github.com/aiishii/JEMHopQA)。 * v1.[1,2]-extended-answers版本:由SB Intuitions团队补充同义词、异名等备选答案的修订版本。具体而言,原字段`answer: str`被调整为`answers: List[str]`,原始标准答案及所有备选答案均存储于`answers`字段中。 # JEMHopQA > JEMHopQA(日语可解释多跳问答数据集,Japanese Explainable Multi-hop Question Answering)是一款用于评估内部推理能力的日语多跳问答数据集。该任务以自然语言问题作为输入,要求生成对应答案及推理过程。推理过程(Derivations)指一组推理步骤,是实体间关系的半结构化表示形式。本数据集同时包含组合型(结合两篇维基百科文章的信息进行推理)与比较型(对比两篇维基百科文章中的信息)两类问题。 ## 授权信息 采用[知识共享署名-相同方式共享4.0国际许可协议(Creative Commons Attribution Share Alike 4.0 International)](https://github.com/aiishii/JEMHopQA/blob/main/LICENSE)。 ## 引用信息 @inproceedings{ishii-etal-2024-jemhopqa-dataset, title = "{JEMH}op{QA}: 日语可解释多跳问答数据集(Dataset for {J}apanese Explainable Multi-Hop Question Answering)", author = "Ishii, Ai 与 Inoue, Naoya 与 Suzuki, Hisami 与 Sekine, Satoshi", editor = "Calzolari, Nicoletta 与 Kan, Min-Yen 与 Hoste, Veronique 与 Lenci, Alessandro 与 Sakti, Sakriani 与 Xue, Nianwen", booktitle = "2024年国际计算语言学大会、语言资源与评估联合会议(LREC-COLING 2024)论文集", month = may, year = "2024", address = "意大利都灵", publisher = "ELRA与ICCL", url = "https://aclanthology.org/2024.lrec-main.831", pages = "9515--9525", } # 子集说明 ## v1版本 对应GitHub仓库[JEMHopQA/corpus](https://github.com/aiishii/JEMHopQA/tree/main/corpus)中的数据集。 ## v1.1版本 对应GitHub仓库[JEMHopQA/corpus_ver1.1](https://github.com/aiishii/JEMHopQA/tree/main/corpus_ver1.1)。 各字段说明如下: - `qid`(字符串类型):数据集每条条目的唯一标识符。 - `type`(字符串类型):问题类别,可选值为“comparison(比较型)”或“compositional(组合型)”。 - `question`(字符串类型):问题文本。 - `answer`(字符串类型):问题的标准答案。 - `derivations`(字典类型,键为字符串,值为字符串列表):用于推导答案的知识三元组集合。 - `page_ids`(字符串列表类型):关联的维基百科页面标识符。 - `time_dependent`(布尔类型):标识该问题/答案是否具有时间敏感性。 ## v1.1-extended-answers版本 在v1.1版本的基础上,为`answer`字段补充备选答案,将其扩展为`answers`(字符串列表类型)字段。 - 示例:原字段`"加利福尼亚州库比蒂诺"` 扩展为 `["加利福尼亚州库比蒂诺", "美利坚合众国加利福尼亚州库比蒂诺", "美利坚合众国加利福尼亚州库帕蒂诺", "加利福尼亚州库帕蒂诺"]` - 数据划分:仅包含验证集(validation)。 - 问题文本与答案列表未经过NFKC标准化。
提供机构:
maas
创建时间:
2025-10-12
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作