CMRC-2018: Chinese Machine Reading Comprehension (CMRC) 2018 Public Dataset

github2024-03-02 更新2024-05-31 收录

下载链接：

https://github.com/SigmaQuan/Awesome-Chinese-Corpus-Datasets-and-Models

下载链接

链接失效反馈

官方服务：

资源简介：

CMRC-2018是一个中文机器阅读理解数据集，用于评估和测试机器阅读理解系统的性能。该数据集由第二届中文机器阅读理解评估研讨会发布，旨在通过公开挑战和隐藏测试集进一步测试系统。

CMRC-2018 is a Chinese machine reading comprehension dataset designed to evaluate and test the performance of machine reading comprehension systems. This dataset was released by the Second Chinese Machine Reading Comprehension Evaluation Workshop, aiming to further test systems through public challenges and hidden test sets.

创建时间：

2019-10-27

原始信息汇总

数据集概述

1. 语料库

1.1 Wikipedia Chinese

下载地址: BaiduNets
参考: Github
格式: JSON文件
示例: 包含超过1,000,000个条目，如： json { "id": "53", "url": "https://zh.wikipedia.org/wiki?curid=53", "title": "经济学", "text": "经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。西方语言中的“经济学”一词源于..." }

1.2 Chinese News

下载地址: BaiduNets
参考: Github
格式: JSON文件
示例: 包含超过2,500,000个条目，如： json { "news_id": "610130831", "keywords": "导游，门票", "title": "故宫淡季门票40元 “黑导游”卖外地客140元", "desc": "近日有网友微博爆料称，故宫午门广场售票处出现“黑导游”，专门向外地游客出售高价门票。昨日，记者实地....。" }

2. 词典

2.1 China Xinhua dictionary

包含内容: 14032歇后语，31648成语，264434词语，16142汉字
下载地址: Github
参考: Github
格式: JSON文件
示例: 包含264434成语，如： json { "derivation": "语出《法华经·法师功德品》下至阿鼻地狱。”", "example": "但也有少数意志薄弱的……逐步上当，终至堕入～。★《上饶集中营·炼狱杂记》", "explanation": "阿鼻梵语的译音，意译为无间”，即痛苦无有间断之意。常用来比喻黑暗的社会和严酷的牢狱。又比喻无法摆脱的极其痛苦的境地。", "pinyin": "ā bí dì yù", "word": "阿鼻地狱", "abbreviation": "abdy" }

3. 数据集

3.1 Machine reading comprehension datasets

3.1.1 CMRC-2018: Chinese Machine Reading Comprehension (CMRC) 2018 Public Dataset

描述: 包含原始CMRC 2018公共数据和SQuAD风格数据
原始数据:
- cmrc2018_evaluate.py: 4.1k, CMRC 2018官方评估脚本v5
- cmrc2018_trial.json: 1.0m, CMRC 2018试验数据
- cmrc2018_train.json: 9.0m, CMRC 2018训练数据
- cmrc2018_dev.json: 3.4m, CMRC 2018开发数据
SQuAD风格数据:
- cmrc2018_evaluate.py: 4.2k, CMRC 2018官方评估脚本v5-sp
- cmrc2018_trial.json: 781k, CMRC 2018试验数据(SQuAD风格)
- cmrc2018_train.json: 7.1m, CMRC 2018训练数据(SQuAD风格)
- cmrc2018_dev.json: 3.1m, CMRC 2018开发数据(SQuAD风格)

3.1.2 DRCD: Delta Reading Comprehension Dataset (DRCD)

描述: 包含10,014段落来自2,108维基百科文章和30,000+问题
下载地址: Github
参考: Github

3.2 Question-answering datasets

3.2.1 Baike

下载地址: BaiduNets
参考: Github
格式: JSON文件
示例: 包含1,500,000个问题，如： json { "qid": "qid_2540946131115409959", "category": "生活知识", "title": "冬天进补好一些呢，还是夏天进步吗啊？ ", "desc": "", "answer": "你好！

当然是冬天进补好的了，夏天人体的胃处于收缩状态，不适宜大量的进补，所以我们有时候说：“夏天就要吃些清淡的，就是这个道理的。”

不过，秋季进补要注意“四忌” 一忌多多益善。任何补药服用过量都有害。认为“多吃补药，有病治病，无病强身”是不的。过量进补会加重脾胃、肝脏负担。在夏季里，人们由于喝冷饮，常食冻品，多有脾胃功能减弱的现象，这时候如果突然大量进补，会骤然加重脾胃及肝脏的负担，使长期处于疲弱的消化器官难于承受，导致消化器官功能紊乱。

二忌以药代食。重药物轻食物的做法是不科学的，许多食物也是好的滋补品。如多吃荠菜可治疗高血压；多吃萝卜可健胃消食，顺气宽胸；多吃山药能补脾胃。日常食用的胡桃、芝麻、花生、红枣、扁豆等也是进补的佳品。

三忌越贵越好。每个人的身体状况不同，因此与之相适应的补品也是不同的。价格昂贵的补品如燕窝、人参之类并非对每个人都适合。每种进补品都有一定的对象和适应症，应以实用有效为滋补原则，缺啥补啥。

四忌只补肉类。秋季适当食用牛羊肉进补效果好。但经过夏季后，由于脾胃尚未完全恢复到正常功能，因此过于油腻的食品不易消化吸收。另外，体内过多的脂类、糖类等物质堆积可能诱发心脑血管病。" }

3.2.2 Web question-answering

下载地址: Google Disk
参考: Github
格式: JSON文件
示例: 包含4,100,000个问题，如： json { "qid": 65618973, "title": "AlphaGo只会下围棋吗？阿法狗能写小说吗？", "desc": "那么现在会不会有智能机器人能从事文学创作？<br>如果有，能写出什么水平的作品？", "topic": "机器人", "star": 3, "content": "AlphaGo只会下围棋，因为它的设计目的，架构，技术方案以及训练数据，都是围绕下围棋这个核心进行的。它在围棋领域的突破，证明了深度学习深度强化学习MCTS技术在围棋领域的有有效性，并且取得了重大的PR效果。AlphaGo不会写小说，它是专用的，不会做跨出它领域的其它事情，比如语音识别，人脸识别，自动驾驶，写小说或者理解小说。如果要写小说，需要用到自然语言处理（NLP））中的自然语言生成技术，那是人工智能领域一个", "answer_id": 545576062, "answerer_tags": "人工智能@游戏业" }

3.3 Translation datasets

3.3.1 English <> Chinese translation

下载地址: Google Disk
参考: Github
格式: JSON文件
示例: 包含5,200,000对翻译，如： json { "english": "In Italy, there is no real public pressure for a new, fairer tax system.", "chinese": "在意大利，公众不会真的向政府施压，要求实行新的、更公平的税收制度。" }

搜集汇总

数据集介绍

构建方式

CMRC-2018数据集的构建基于中文机器阅读理解任务，旨在为研究者提供一个标准化的评估平台。该数据集通过从中文维基百科和新闻文章中提取段落，并由人工标注生成问题和答案对。数据集的构建过程严格遵循了机器阅读理解的标准流程，确保了数据的多样性和复杂性。数据集分为训练集、开发集和测试集，分别用于模型训练、调优和最终评估。此外，数据集还提供了与SQuAD格式兼容的版本，便于与现有模型进行对比。

使用方法

CMRC-2018数据集的使用方法主要包括数据加载、模型训练和性能评估。研究者可以通过下载数据集中的JSON文件，使用Python等编程语言进行数据加载和预处理。数据集提供了训练集、开发集和测试集，研究者可以利用训练集进行模型训练，使用开发集进行超参数调优，最后在测试集上进行性能评估。数据集还提供了官方的评估脚本，研究者可以使用该脚本来计算模型的精确匹配（EM）和F1分数等指标。此外，数据集的SQuAD风格版本使得其能够与现有的英文阅读理解模型进行直接对比。

背景与挑战

背景概述

CMRC-2018数据集是专为中文机器阅读理解任务设计的公开数据集，由哈尔滨工业大学社会计算与信息检索研究中心（HIT-SCIR）于2018年发布。该数据集旨在推动中文自然语言处理领域的发展，特别是机器阅读理解模型的性能评估与优化。数据集的核心研究问题是通过对中文文本的理解与推理，提取出准确的答案片段。CMRC-2018的发布为中文阅读理解任务提供了标准化的评测基准，极大地促进了相关领域的研究进展，并在学术界和工业界产生了广泛影响。

当前挑战

CMRC-2018数据集在解决中文机器阅读理解任务时面临多重挑战。首先，中文语言的复杂性和多样性使得模型在处理长文本、多义词和上下文依赖关系时表现不佳。其次，数据集的构建过程中，如何确保问题与答案之间的逻辑一致性以及标注的准确性成为一大难题。此外，与英文阅读理解数据集相比，中文数据集的规模相对较小，限制了模型的泛化能力。最后，如何将CMRC-2018与其他语言的数据集进行有效融合，以提升跨语言阅读理解模型的性能，也是当前研究中的一大挑战。

常用场景

经典使用场景

CMRC-2018数据集在自然语言处理领域中被广泛用于中文机器阅读理解任务的研究与开发。该数据集通过提供大量的中文段落和对应的问题，帮助研究人员训练和评估模型在理解中文文本、提取关键信息以及生成准确答案方面的能力。其经典使用场景包括模型训练、性能评估以及算法优化，尤其是在处理复杂中文语境下的阅读理解任务时，CMRC-2018展现了其独特的价值。

解决学术问题

CMRC-2018数据集有效解决了中文机器阅读理解领域中的多个关键学术问题。首先，它填补了中文阅读理解数据集的空白，为研究人员提供了丰富的实验数据。其次，通过其独特的跨度提取任务设计，该数据集推动了模型在中文文本理解、信息提取和答案生成方面的技术进步。此外，CMRC-2018还为跨语言阅读理解研究提供了重要的对比基准，促进了中文与其他语言在阅读理解任务上的比较与融合。

实际应用

在实际应用中，CMRC-2018数据集为智能问答系统、教育辅助工具以及信息检索系统提供了强大的支持。基于该数据集训练的模型能够广泛应用于中文搜索引擎、智能客服以及在线教育平台，帮助用户快速获取准确的信息。例如，在教育领域，CMRC-2018驱动的阅读理解模型可以辅助学生进行文本分析和问题解答，提升学习效率。在商业场景中，该数据集的应用也显著提升了智能客服的响应速度和准确性。

数据集最近研究