five

维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)

收藏
github2019-02-15 更新2024-05-31 收录
下载链接:
https://github.com/yaoqi/nlp_chinese_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
维基百科(wiki2019zh)包含104万个词条,可用于通用中文语料、预训练语料或构建知识问答。新闻语料(news2016zh)包含250万篇新闻,可用于训练词向量、预训练语料或训练标题生成模型。百科问答(baike2018qa)包含150万个问答,可用于训练词向量、预训练语料或构建百科类问答。

The Wikipedia (wiki2019zh) dataset comprises 1.04 million entries, suitable for general Chinese corpus, pre-training materials, or constructing knowledge-based question-answering systems. The news corpus (news2016zh) includes 2.5 million news articles, ideal for training word vectors, pre-training materials, or developing headline generation models. The encyclopedia Q&A (baike2018qa) dataset contains 1.5 million question-answer pairs, useful for training word vectors, pre-training materials, or building encyclopedia-style question-answering systems.
创建时间:
2019-02-15
原始信息汇总

数据集概述

1. 维基百科json版(wiki2019zh)

  • 规模: 包含1,043,224个词条,原始文件大小1.6G,压缩文件519M。
  • 更新时间: 2019年2月7日。
  • 结构: 数据格式为{"id":<id>,"url":<url>,"title":<title>,"text":<text>},其中title是词条标题,text是正文,通过`

`换行。

  • 用途: 可用于预训练语料、构建词向量或知识问答。

2. 新闻语料json版(news2016zh)

  • 规模: 包含250万篇新闻,原始数据9G,压缩文件3.6G。新闻内容跨度为2014-2016年。
  • 数据描述: 涵盖6.3万个媒体,包含标题、关键词、描述、正文。数据去重并分为训练集(243万)、验证集(7.7万)和测试集(数万,不提供下载)。
  • 结构: 数据格式为{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
  • 用途: 可用于预训练语料、训练词向量、标题生成模型或关键词生成模型。

3. 百科类问答json版(baike2018qa)

  • 规模: 包含150万个问答,原始数据1G多,压缩文件663M。
  • 数据描述: 包含492个类别,其中434个类别频率达到或超过10次。数据去重并分为训练集(142.5万)、验证集(4.5万)和测试集(数万,不提供下载)。
  • 结构: 数据格式为{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
  • 用途: 可用于预训练语料、训练词向量或构建百科类问答。
搜集汇总
数据集介绍
main_image_url
构建方式
维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)三个数据集的构建,均以大规模中文文本为基础,采用json格式存储。其中,维基百科数据集包含了104万个词条,新闻语料数据集包含了250万篇新闻,百科问答数据集则含有150万个问题与答案。构建过程中,词条、新闻、问答均按照特定结构进行组织,便于后续处理与分析。
特点
这三个数据集的特点在于其大规模的中文文本资源,覆盖了广泛的主题和知识领域。维基百科(wiki2019zh)提供了详尽的词条信息,新闻语料(news2016zh)展现了时效性强的新闻内容,而百科问答(baike2018qa)则聚焦于问答对,包含了类别信息,适合于构建知识问答系统。此外,数据集经过去重和划分,形成了训练集、验证集和测试集,便于模型的训练和评估。
使用方法
使用这些数据集时,用户可以根据具体需求选择相应的数据集。例如,维基百科数据集可用于预训练词向量或构建知识问答;新闻语料数据集适合训练标题生成和关键词生成模型;百科问答数据集则可用于监督训练,以构建更好的句子表示模型。用户需下载对应的数据集,并根据提供的json结构进行读取和处理,以适应不同的自然语言处理任务。
背景与挑战
背景概述
维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)三个数据集均为中文自然语言处理领域贡献了重要的语料资源。wiki2019zh数据集包含了104万个维基百科词条,news2016zh数据集则涵盖了250万篇新闻,而baike2018qa数据集则含有150万个百科问答对。这些数据集的创建旨在解决中文信息获取的难题,为研究人员和开发者提供大规模的中文语料,以支持词向量训练、预训练语料构建、知识问答、文本分类等任务。这些数据集由专业团队自2019年起不断扩充,对于推动中文自然语言处理技术的发展起到了积极作用。
当前挑战
尽管这些数据集为中文自然语言处理领域提供了宝贵的资源,但在构建和使用过程中也面临诸多挑战。首先,语料的多样性和质量是构建高质量数据集的关键,如何确保数据的准确性和覆盖面成为一大挑战。其次,大规模数据集的存储、处理和分发对技术提出了较高要求。此外,随着自然语言处理技术的不断发展,如何对数据集进行有效维护和更新,以适应新的研究需求,也是数据集维护者必须面对的挑战。
常用场景
经典使用场景
维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)三个数据集,在中文自然语言处理领域具有重要的应用价值。其中,维基百科数据集常用于构建预训练语言模型,为各类NLP任务提供基础支撑;新闻语料数据集适用于训练文本分类、情感分析等模型;百科问答数据集则可用于问答系统构建与优化。
衍生相关工作
基于这些数据集,研究者们衍生出了一系列相关工作,如构建了多种预训练语言模型、实现了不同类型的文本分类与问答系统,并在各类NLP竞赛和实际应用中取得了显著成果。
数据集最近研究
最新研究方向
在自然语言处理领域,维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)三个数据集的应用研究呈现出多样化趋势。维基百科数据集以其庞大的词条量和丰富的知识信息,正被广泛应用于构建预训练语言模型、知识图谱和词向量模型等研究方向,为理解语言深层次语义提供了有力支撑。新闻语料数据集则因其时效性强、来源广泛的特点,成为训练文本分类、情感分析、信息抽取等模型的重要资源。百科问答数据集则在构建问答系统、信息检索以及语义理解等方面发挥着关键作用。这些数据集不仅推动了中文自然语言处理技术的进步,也为研究诸如社会热点事件、网络舆情分析等提供了数据支持,具有深远的研究价值和实际应用意义。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务