five

维基百科(wiki2019zh)

收藏
github2019-03-03 更新2024-05-31 收录
下载链接:
https://github.com/huanghao128/nlp_chinese_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
包含104万个结构良好的中文词条,可用于预训练的语料或构建词向量,也可用于构建知识问答。数据集结构清晰,每个词条包含id、url、title和text等信息。

This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, as well as for building knowledge-based question-answering systems. The dataset is clearly organized, with each entry containing information such as id, url, title, and text.
创建时间:
2019-03-03
原始信息汇总

数据集概述

数据集目标

  • 一期目标:10个百万级中文语料 & 3个千万级中文语料(2019年5月1号)
  • 二期目标:30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料(2019年12月31日)

数据集更新

  • 增加高质量社区问答json版(webtext2019zh),410万个问答,适合训练超大模型
  • 添加520万翻译语料(translation2019zh)

数据集内容

  1. 维基百科(wiki2019zh)

    • 包含100万个结构良好的中文词条
    • 数据结构:{"id":<id>,"url":<url>,"title":<title>,"text":<text>}
  2. 新闻语料(news2016zh)

    • 包含250万篇新闻,含关键词、描述
    • 数据结构:{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
  3. 百科问答(baike2018qa)

    • 包含150万个带问题类型的问答
    • 数据结构:{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
  4. 社区问答json版(webtext2019zh)

    • 包含410万个高质量社区问答
    • 数据结构:{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
  5. 翻译语料(translation2019zh)

    • 包含520万个中英文平行语料
    • 数据结构:{"english": <english>, "chinese": <chinese>}

数据集用途

  • 通用中文语料,用于训练词向量或预训练语料
  • 构建知识问答、标题生成、关键词生成模型
  • 训练话题预测模型、社区问答(cQA)系统
  • 中英文翻译系统训练

数据集贡献

  • 贡献中文语料,请发送邮件至nlp_chinese_corpus@163.com
  • 贡献者将根据语料的质量和量级获得感谢,包括列出贡献者名单及赠送物品。
搜集汇总
数据集介绍
main_image_url
构建方式
维基百科(wiki2019zh)数据集的构建,是从维基百科的中文词条中筛选出100万个结构良好的词条,经过处理,形成了包括标题和正文的JSON格式数据。每个词条都包含唯一的标识符、URL链接、标题和正文内容,其中正文内容通过' '进行分段。
使用方法
用户可以通过下载链接获取数据集,并直接使用JSON格式的数据。每个词条都是一个JSON对象,可以直接被解析和使用。适用于构建语言模型、进行文本分类、问答系统训练等多种场景。用户需要根据自己的需求,对数据集进行相应的预处理和格式化。
背景与挑战
背景概述
维基百科(wiki2019zh)数据集是在2019年由nlp_chinese_corpus项目提供的,旨在为中文自然语言处理领域发展贡献力量。该数据集包含了100万个结构良好的中文词条,是中文词条领域的重要资源。其创建目的是为了解决中文语料获取困难的问题,由ReactiveCJ等贡献者共同构建,并持续更新扩充。数据集的发布对于中文NLP研究具有重要意义,极大地推动了相关领域的发展。
当前挑战
在构建维基百科(wiki2019zh)数据集的过程中,研究人员面临了多个挑战。首先,确保词条的质量和准确性是一个关键挑战,因为这直接关系到后续应用的可靠性。其次,数据集的规模和多样性也提出了挑战,需要处理大量的数据并进行有效的数据清洗和预处理。此外,如何合理地结构化数据,以便于后续的查询和应用,也是构建过程中的一大挑战。在研究领域,如何利用这个数据集进行有效的知识问答和词向量训练等任务,提高模型的性能和泛化能力,也是当前面临的挑战之一。
常用场景
经典使用场景
维基百科(wiki2019zh)数据集作为中文自然语言处理领域的重要资源,其经典使用场景主要在于预训练语言模型、构建词向量以及用于知识问答系统的训练。该数据集凭借其规模宏大、结构良好的特点,为研究者提供了丰富的语言学习和知识挖掘的基础。
解决学术问题
该数据集解决了中文NLP领域中缺乏大规模高质量语料的问题,为词向量训练、语言模型预训练、知识问答等学术研究任务提供了强有力的数据支撑。其高质量的语料也使得相关研究成果在实际应用中更具可靠性和准确性。
实际应用
在实际应用中,维基百科(wiki2019zh)数据集被广泛应用于搜索引擎优化、智能客服系统构建、内容推荐系统等领域。它为这些应用提供了丰富的语义信息和知识基础,显著提升了系统的智能处理能力和用户体验。
数据集最近研究
最新研究方向
维基百科(wiki2019zh)数据集近期研究方向主要集中于自然语言处理领域,特别是预训练语言模型、词向量构建以及知识问答系统的构建。研究学者利用该数据集进行深度学习模型的训练,以提高模型在中文语言理解、生成和翻译等任务上的表现。同时,该数据集也为研究社交网络中的信息传播、话题预测以及用户行为分析提供了丰富的资源。此外,结合翻译语料(translation2019zh),研究者们正在探索跨语言的信息处理和翻译系统的发展,以促进全球化背景下的语言理解和交流。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作