five

维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)

收藏
github2019-02-14 更新2024-05-31 收录
下载链接:
https://github.com/lgphub/nlp_chinese_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
维基百科(wiki2019zh)包含104万个词条,可用于预训练语料或构建词向量,也可用于构建知识问答。新闻语料(news2016zh)包含250万篇新闻,可用于训练词向量或预训练语料,也可用于训练标题生成或关键词生成模型。百科问答(baike2018qa)包含150万个问答,可用于训练词向量或预训练语料,也可用于构建百科类问答。

The Wikipedia (wiki2019zh) dataset comprises 1.04 million entries, suitable for pre-training corpora or constructing word vectors, and can also be utilized for building knowledge-based question-answering systems. The news corpus (news2016zh) includes 2.5 million news articles, ideal for training word vectors or pre-training corpora, and can also be employed for training headline generation or keyword generation models. The encyclopedia Q&A (baike2018qa) dataset contains 1.5 million question-answer pairs, appropriate for training word vectors or pre-training corpora, and can also be used to construct encyclopedia-style question-answering systems.
创建时间:
2019-02-14
原始信息汇总

数据集概述

维基百科(wiki2019zh)

  • 数据量: 包含104万个词条,原始文件大小1.6G,压缩文件519M。
  • 更新时间: 2019年2月7日。
  • 数据结构: 每个词条包含id、url、title和text字段,其中title为词条标题,text为正文,通过"

"换行。

  • 用途: 可用于预训练的语料或构建词向量,也可用于构建知识问答。

新闻语料(news2016zh)

  • 数据量: 包含250万篇新闻,原始数据9G,压缩文件3.6G。
  • 时间跨度: 2014-2016年。
  • 数据结构: 每篇新闻包含news_id、title、content、source、time、keywords和desc字段。
  • 用途: 可用于训练词向量或预训练的语料,也可用于训练标题生成模型或关键词生成模型。

百科类问答(baike2018qa)

  • 数据量: 包含150万个问答,原始数据1G多,压缩文件663M。
  • 数据结构: 每个问答包含qid、category、title、desc和answer字段。
  • 用途: 可用于训练词向量或预训练的语料,也可用于构建百科类问答,利用类别信息进行监督训练。

数据集贡献

  • 联系方式: 贡献中文语料,请发送邮件至nlp_chinese_corpus@163.com。
  • 贡献奖励: 根据语料的质量和量级,选出前20个贡献者,寄出键盘、鼠标、显示屏、无线耳机、智能音箱或其他等值的物品。
搜集汇总
数据集介绍
main_image_url
构建方式
维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)三个数据集的构建,均是基于大规模中文文本的采集与处理。其中,wiki2019zh数据集是通过爬取2019年2月7日的维基百科中文词条,经过清洗、去重和压缩处理后形成;news2016zh数据集则汇集了2014至2016年间250万篇新闻,来源于6.3万个媒体,经过去重、分集处理后构建而成;baike2018qa数据集则由150万个问题及答案构成,涉及492个类别,同样经过去重和分集处理,确保了数据的多样性与可用性。
特点
这三个数据集的特点在于其规模宏大、内容丰富且格式统一。wiki2019zh数据集包含了104万个词条,覆盖了广泛的知识领域;news2016zh数据集则提供了丰富的新闻内容,适合进行文本分析和信息抽取;baike2018qa数据集的问答对形式,使其成为构建问答系统、进行句子相似性任务等自然语言处理任务的理想资源。此外,每个数据集都经过了严格的预处理,确保了数据的质量和一致性。
使用方法
用户可以根据具体需求,下载并使用这些数据集。使用时,需遵循数据集的结构定义,例如wiki2019zh数据集的每个条目包含id、url、title和text字段;news2016zh数据集的每个条目则包括news_id、title、content等字段;baike2018qa数据集的每个条目包含qid、category、title、desc和answer字段。用户可以根据这些字段进行数据读取、分析和模型训练等操作。同时,数据集的使用应遵守相应的版权和使用规定。
背景与挑战
背景概述
在2019年,中文自然语言处理领域面临着语料获取的难题,大规模中文语料库的缺乏限制了研究的深入和技术的进步。为此,相关研究人员和机构启动了一个名为「中文语料库」的项目,旨在贡献并扩充中文语料资源。该项目分两期目标,预计提供多个百万级和千万级的中文语料库。其中,维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)是该项目的重要成果,为中文自然语言处理领域提供了丰富的数据资源,极大地推动了相关研究的进展。
当前挑战
尽管这些数据集为研究提供了有力支撑,但在构建过程中也遇到了诸多挑战。首先,获取大规模、高质量的中文语料本身就是一项挑战,涉及到数据收集、清洗、格式化等多个环节。其次,数据集的多样性和平衡性也是一个挑战,如何确保数据覆盖不同领域和主题,同时避免偏差,是构建高质量数据集的关键。此外,随着技术的发展,数据集的更新和维护也成为一个长期挑战,需要持续投入资源以保证其时效性和可用性。
常用场景
经典使用场景
维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)三个数据集,在中文自然语言处理领域具有重要的应用价值。其中,维基百科数据集因其内容丰富、覆盖面广,常被用作构建预训练语言模型和词向量的基础语料库;新闻语料数据集则因其时效性强、信息量大,适用于训练文本分类、情感分析等模型;百科问答数据集则因其包含问题和答案对,是构建问答系统、信息检索模型的重要资源。
实际应用
在实际应用中,这些数据集被广泛用于搜索引擎优化、智能客服、新闻推荐、语音识别等领域。它们帮助提升了机器理解中文语言的能力,优化了用户体验,推动了人工智能技术在中文环境下的实际应用。
衍生相关工作
基于这些数据集,衍生出了一系列相关的研究工作。包括但不限于构建大规模预训练模型、开发中文问答系统、进行文本数据挖掘等。这些工作进一步拓展了数据集的应用范围,推动了中文自然语言处理技术的进步。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务