five

MuSeRC (Russian Multi-Sentence Reading Comprehension)

收藏
OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/MuSeRC
下载链接
链接失效反馈
官方服务:
资源简介:
我们提出了一个阅读理解挑战,其中问题只能通过考虑来自多个句子的信息来回答。该数据集是第一个大规模研究多句推理的数据集,具有一组需要推理技能的开放式问题类型。任务类型 每个答案的二进制分类。 True/False Example { "id": 397, "text": "(1) 挪威男子冬季两项队在德国奥伯霍夫世界杯接力获得冠军。(2) 法国队获得亚军,德国队获得铜牌。 (3)俄罗斯冬季两项连第四名都无法争夺,落后挪威人两分多(4)这是俄罗斯队本赛季最差的成绩(5)奥地利人在奥伯霍夫获得第四名(6)作为挪威队传奇人物 Ole Einar Bjoerndalen 进入第四赛段。(7) 然而,挪威队从一开始就处于领先地位,成功完成了所有四个赛段。(8) Ivan Cherezov、Anton Shipulin、Evgeny Ustyugov 和 Maxim为俄罗斯队效力于奥伯霍夫丘多夫 (9) 比赛一开始并不顺利:虽然切列佐夫在俯卧位置准确,但他在站立位置上出现了几次失误,结果他不得不跑(10) 之后,俄罗斯队落后了来自竞争对手的只会增加。 (11) 回想前一天,俄罗斯冬季两项运动员赢得了他们的接力赛。 (12) Anna Bogaliy-Titovets、Anna Bulygina、Olga Medvedtseva 和 Svetlana Sleptsova 参加了俄罗斯国家队的比赛。 (13) 他们仅以 0.3 秒的优势击败了主要的德国对手。", "questions": [ { "question": "女队击败了对手多少秒?", "answers": [ { "text": "仅 0.3 秒。", "label": 1 }, { "text": "For 0.3 seconds.", "label": 1 }, { "text": "For a second." , "label": 0 }, { "text": "For 0.5 seconds.", "label": 0 } ], "idx": 0 }] } 我们是如何收集数据的?我们的挑战数据集包含 ∼6k 个问题,涉及 5 个 +800 个段落不同领域: 小学课文 新闻 小说 故事 童话 系列 摘要 首先,我们从开源收集所有数据并自动对其进行预处理,仅过滤与以下参数对应的段落:1)段落长度 2)NER 实体的数量3) 共指关系的数量。之后我们检查了句子的正确拆分并计算了每个句子。接下来,在 Yandex.Toloka 中,我们生成了众包任务以从 tolkers 信息中获取:1) g生成问题 2) 生成答案 3) 检查以解决每个问题,人们需要在文本中使用多个句子。原则 我们排除任何可以基于段落中的单个句子回答的问题。答案不是以文本中的完整匹配形式写的。问题的答案是相互独立的。可以区分它们的数量。
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
MuSeRC是一个俄语多句子阅读理解数据集,包含约6000个问题,要求通过分析多个句子的信息来回答,覆盖新闻、小说等多个领域。该数据集采用众包方式构建,问题设计为不能仅基于单个句子回答,答案以二进制分类形式呈现。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作