维基百科(wiki2019zh)
收藏github2019-04-12 更新2024-05-31 收录
下载链接:
https://github.com/hcxiong/nlp_chinese_corpus
下载链接
链接失效反馈官方服务:
资源简介:
包含104万个结构良好的中文词条,可用于预训练的语料或构建词向量,也可用于构建知识问答。数据集结构包括id、url、title和text,其中title是词条的标题,text是正文。
This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, as well as for building knowledge-based question-answering systems. The dataset structure includes id, url, title, and text, where the title represents the heading of the entry and the text contains the main body.
创建时间:
2019-04-12
原始信息汇总
数据集概述
数据集目标
- 一期目标:10个百万级中文语料 & 3个千万级中文语料(2019年5月1号)
- 二期目标:30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料(2019年12月31日)
数据集更新
- 增加高质量社区问答json版(webtext2019zh),410万个问答,适合训练超大模型
- 添加520万翻译语料(translation2019zh),中英文句子对
数据集详情
-
维基百科(wiki2019zh)
- 数据量:100万个结构良好的中文词条
- 可能用途:通用中文语料,预训练语料,构建词向量,知识问答
- 数据结构:{"id":<id>,"url":<url>,"title":<title>,"text":<text>}
-
新闻语料(news2016zh)
- 数据量:250万篇新闻,含关键词、描述
- 可能用途:通用中文语料,训练词向量,预训练语料,标题生成模型,关键词生成模型
- 数据结构:{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
-
百科问答(baike2018qa)
- 数据量:150万个带问题类型的问答
- 可能用途:通用中文语料,训练词向量,预训练语料,百科类问答
- 数据结构:{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
-
社区问答json版(webtext2019zh)
- 数据量:410万个高质量社区问答
- 可能用途:构建百科类问答,话题预测模型,社区问答系统,大模型预训练,句子相似性任务
- 数据结构:{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
-
翻译语料(translation2019zh)
- 数据量:520万个中英文平行语料
- 可能用途:中英文翻译系统,通用中文语料,训练词向量,预训练语料
- 数据结构:{"english": <english>, "chinese": <chinese>}
数据集贡献
- 贡献方式:发送邮件至nlp_chinese_corpus@163.com
- 贡献奖励:根据语料质量和量级,选出前20个贡献者,提供键盘、鼠标、显示屏等奖励
搜集汇总
数据集介绍

构建方式
维基百科(wiki2019zh)数据集的构建,是通过从维基百科提取中文词条的方式进行的。该数据集包含了100万个结构良好的中文词条,每个词条由一个标题和正文组成,其中正文通过'
'进行分段。构建过程中,特别关注了数据的时效性和质量,确保了语料的实用性和研究价值。
使用方法
使用该数据集时,用户可以直接下载并解压JSON文件,之后可以利用各种编程语言中的JSON解析库来读取数据。数据集适用于中文自然语言处理任务,如预训练语言模型、构建词向量、知识问答等。用户应确保在合法和道德的框架内使用数据,尊重数据隐私和知识产权。
背景与挑战
背景概述
维基百科(wiki2019zh)数据集,创建于2019年,是由nlp_chinese_corpus项目提供的中文自然语言处理语料库之一。该数据集包含了100万个结构良好的中文词条,其目的是为了贡献高质量的中文语料,助力中文自然语言处理领域的研究与发展。主要研究人员或机构为brightmart,他们通过收集和整理维基百科的中文词条,构建了这一大规模的中文语料库,对中文自然语言处理领域产生了重要影响。
当前挑战
在构建维基百科(wiki2019zh)数据集的过程中,主要面临的挑战包括如何从维基百科的原始数据中提取出结构化、高质量的中文词条,以及如何保证数据集的多样性和覆盖面。此外,数据集构建完成后,如何有效地利用这些数据进行词向量训练、构建知识问答系统等,也是相关领域研究需要解决的问题。在数据集的利用过程中,还需要克服将维基百科词条应用于具体自然语言处理任务的挑战,例如词条的实体识别、关系抽取等。
常用场景
经典使用场景
维基百科(wiki2019zh)数据集作为中文自然语言处理领域的重要资源,其经典使用场景在于为研究者提供丰富的中文词条,用于构建和训练语言模型、词向量模型等。通过该数据集中的高质量中文词条,研究者能够进行预训练任务,进而提升模型在理解中文语言结构、语义信息等方面的能力。
解决学术问题
该数据集解决了中文自然语言处理领域缺乏大规模、结构良好语料的问题。借助维基百科(wiki2019zh),研究者能够训练出更加精确的词向量模型,促进了对中文语言深层次特征的理解,为构建知识图谱、问答系统等提供了有力支撑。
实际应用
在实际应用中,维基百科(wiki2019zh)数据集可用于开发智能搜索系统、自动问答系统以及提供文本数据的风控服务。例如,搜索引擎可以利用该数据集优化中文搜索结果的排序,自动问答系统可以基于此数据集提供更加准确的回答。
数据集最近研究
最新研究方向
维基百科(wiki2019zh)数据集作为大规模中文语料库,近期研究方向集中于自然语言处理领域,如预训练语言模型的构建、词向量的训练以及知识图谱的构建等。该数据集的支持使得研究者能够在机器翻译、文本生成、问答系统等多个前沿方向上取得突破。特别是在构建中文问答系统方面,结合百科问答和社区问答数据,研究正朝着提高答案准确性和相关性方向发展,同时探索基于深度学习的文本生成技术,以实现更加自然和流畅的文本输出。
以上内容由遇见数据集搜集并总结生成



