MuSeRC (Russian Multi-Sentence Reading Comprehension)

Name: MuSeRC (Russian Multi-Sentence Reading Comprehension)
Creator: OpenDataLab
Published: 2026-05-24 07:30:10
License: 暂无描述

OpenDataLab2026-05-24 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/MuSeRC

下载链接

链接失效反馈

官方服务：

资源简介：

我们提出了一个阅读理解挑战，其中问题只能通过考虑来自多个句子的信息来回答。该数据集是第一个大规模研究多句推理的数据集，具有一组需要推理技能的开放式问题类型。任务类型每个答案的二进制分类。 True/False Example { "id": 397, "text": "(1) 挪威男子冬季两项队在德国奥伯霍夫世界杯接力获得冠军。(2) 法国队获得亚军，德国队获得铜牌。（3）俄罗斯冬季两项连第四名都无法争夺，落后挪威人两分多（4）这是俄罗斯队本赛季最差的成绩（5）奥地利人在奥伯霍夫获得第四名（6）作为挪威队传奇人物 Ole Einar Bjoerndalen 进入第四赛段。(7) 然而，挪威队从一开始就处于领先地位，成功完成了所有四个赛段。(8) Ivan Cherezov、Anton Shipulin、Evgeny Ustyugov 和 Maxim为俄罗斯队效力于奥伯霍夫丘多夫 (9) 比赛一开始并不顺利：虽然切列佐夫在俯卧位置准确，但他在站立位置上出现了几次失误，结果他不得不跑(10) 之后，俄罗斯队落后了来自竞争对手的只会增加。 (11) 回想前一天，俄罗斯冬季两项运动员赢得了他们的接力赛。 (12) Anna Bogaliy-Titovets、Anna Bulygina、Olga Medvedtseva 和 Svetlana Sleptsova 参加了俄罗斯国家队的比赛。 (13) 他们仅以 0.3 秒的优势击败了主要的德国对手。", "questions": [ { "question": "女队击败了对手多少秒？", "answers": [ { "text": "仅 0.3 秒。", "label": 1 }, { "text": "For 0.3 seconds.", "label": 1 }, { "text": "For a second." , "label": 0 }, { "text": "For 0.5 seconds.", "label": 0 } ], "idx": 0 }] } 我们是如何收集数据的？我们的挑战数据集包含 ∼6k 个问题，涉及 5 个 +800 个段落不同领域：小学课文新闻小说故事童话系列摘要首先，我们从开源收集所有数据并自动对其进行预处理，仅过滤与以下参数对应的段落：1）段落长度 2）NER 实体的数量3) 共指关系的数量。之后我们检查了句子的正确拆分并计算了每个句子。接下来，在 Yandex.Toloka 中，我们生成了众包任务以从 tolkers 信息中获取：1) g生成问题 2) 生成答案 3) 检查以解决每个问题，人们需要在文本中使用多个句子。原则我们排除任何可以基于段落中的单个句子回答的问题。答案不是以文本中的完整匹配形式写的。问题的答案是相互独立的。可以区分它们的数量。

提供机构：

OpenDataLab

创建时间：

2022-05-23

搜集汇总

数据集介绍