维基百科(wiki2019zh)|自然语言处理数据集|知识问答数据集

github2019-08-29 更新2024-05-31 收录

自然语言处理

知识问答

下载链接：

https://github.com/XuemingQiu/nlp_chinese_corpus

下载链接

链接失效反馈

资源简介：

包含104万个词条，可用于预训练的语料或构建词向量，也可用于构建知识问答。数据结构包括id、url、title、text等字段，其中title是词条的标题，text是正文。

This dataset comprises 1.04 million entries, suitable for pre-training corpora or constructing word vectors, and can also be utilized for building knowledge-based question-answering systems. The data structure includes fields such as id, url, title, and text, where 'title' represents the heading of the entry and 'text' contains the main body content.

创建时间：

2019-08-29

原始信息汇总

数据集概述

数据集目标

一期目标：10个百万级中文语料 & 3个千万级中文语料（2019年5月1号）
二期目标：30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）

数据集更新

增加高质量社区问答json版(webtext2019zh)，410万个问答，适合训练超大模型
添加520万翻译语料(translation2019zh)，中英文句子对

数据集内容

维基百科(wiki2019zh)
- 数量：100万个结构良好的中文词条
- 用途：通用中文语料，预训练语料，构建词向量，知识问答
- 结构：{"id":<id>,"url":<url>,"title":<title>,"text":<text>}
新闻语料(news2016zh)
- 数量：250万篇新闻，含关键词、描述
- 用途：通用中文语料，训练词向量，预训练语料，标题生成，关键词生成
- 结构：{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
百科问答(baike2018qa)
- 数量：150万个带问题类型的问答
- 用途：通用中文语料，训练词向量，预训练语料，百科类问答
- 结构：{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
社区问答json版(webtext2019zh)
- 数量：410万个高质量社区问答
- 用途：构建百科类问答，话题预测，社区问答系统，大模型预训练，词向量训练
- 结构：{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
翻译语料(translation2019zh)
- 数量：520万个中英文平行语料
- 用途：训练中英文翻译系统，通用中文语料，词向量训练
- 结构：{"english": <english>, "chinese": <chinese>}

数据集贡献

贡献方式：发送邮件至nlp_chinese_corpus@163.com
贡献奖励：根据语料质量和量级，选出前20个贡献者，寄出键盘、鼠标、显示屏、无线耳机、智能音箱或其他等值物品。

AI搜集汇总

数据集介绍

构建方式

维基百科(wiki2019zh)数据集的构建基于中文维基百科的公开数据，经过精心筛选和结构化处理，形成了包含104万个词条的语料库。每个词条均以JSON格式存储，包含词条的唯一标识符、URL、标题及正文内容。正文通过换行符进行段落分隔，确保了数据的可读性和易用性。数据集的构建过程注重数据的完整性和质量，旨在为中文自然语言处理研究提供高质量的语料支持。

使用方法

使用维基百科(wiki2019zh)数据集时，研究人员可以通过下载提供的压缩文件获取数据。数据集以JSON格式存储，用户可以使用常见的编程语言（如Python）进行数据解析和处理。该数据集适用于多种自然语言处理任务，包括但不限于预训练语言模型、词向量构建和知识问答系统的开发。用户可以根据具体需求，提取词条的标题和正文内容，进行进一步的分析和应用。

背景与挑战

背景概述

维基百科(wiki2019zh)数据集是由brightmart团队于2019年创建的一个大规模中文自然语言处理语料库，旨在为中文NLP领域的研究提供高质量的语料支持。该数据集包含了104万个结构良好的中文维基百科词条，涵盖了广泛的主题领域。该数据集的创建背景源于当时中文语料资源的匮乏，尤其是在大规模、高质量语料方面，研究者难以获取适合训练现代NLP模型的语料。wiki2019zh的推出填补了这一空白，为中文词向量构建、预训练模型开发以及知识问答系统的构建提供了重要基础。该数据集在中文NLP领域的影响力显著，推动了中文语言模型的快速发展。

当前挑战

维基百科(wiki2019zh)数据集在构建和应用过程中面临多重挑战。首先，中文自然语言处理领域长期缺乏大规模、高质量的语料资源，尤其是在2019年之前，现有的语料往往规模较小或数据过于陈旧，难以满足现代深度学习模型的需求。其次，数据集的构建过程中，如何从维基百科的原始数据中提取结构化信息并确保数据的完整性和一致性是一个技术难点。此外，中文的复杂性和多样性，如多义词、同义词以及语法结构的灵活性，为语料的预处理和模型训练带来了额外的挑战。最后，如何确保数据的时效性和持续更新，以适应快速发展的NLP技术需求，也是该数据集面临的重要问题。

常用场景

经典使用场景

维基百科(wiki2019zh)数据集在中文自然语言处理领域中被广泛用于预训练语言模型和构建词向量。其结构化的词条内容为研究者提供了丰富的文本数据，适用于多种NLP任务，如文本分类、信息检索和知识问答系统的开发。

解决学术问题

该数据集解决了中文NLP研究中语料稀缺和质量不一的问题。通过提供大量高质量、结构化的中文文本，研究者能够更有效地训练和评估模型，推动了中文语言理解技术的发展，特别是在机器翻译、文本生成和语义分析等领域。

实际应用

在实际应用中，维基百科(wiki2019zh)数据集被用于开发智能问答系统、搜索引擎优化和内容推荐系统。其丰富的语料库支持了从基础研究到商业产品的广泛需求，特别是在需要大量中文文本处理的应用场景中。

数据集最近研究

最新研究方向

近年来，随着自然语言处理技术的迅猛发展，维基百科(wiki2019zh)数据集在中文自然语言处理领域的研究中占据了重要地位。该数据集包含了104万个结构良好的中文词条，为中文文本的预训练、词向量构建以及知识问答系统的开发提供了丰富的语料资源。当前的研究热点主要集中在如何利用该数据集提升大规模语言模型的性能，特别是在零样本学习、少样本学习以及跨语言迁移学习中的应用。此外，随着多模态学习的兴起，研究者们也开始探索如何将维基百科的文本数据与图像、视频等多模态信息结合，以构建更加智能化的多模态语言模型。这些研究不仅推动了中文自然语言处理技术的发展，也为全球多语言处理领域提供了宝贵的经验和参考。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

CAP-DATA

CAP-DATA数据集由长安大学交通学院的研究团队创建，包含11,727个交通事故视频，总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口，还提供了详细的文本描述，包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息，提高交通事故预测的准确性和解释性，从而支持更安全的驾驶决策系统。

arXiv 收录

Fruits-360

一个高质量的水果图像数据集，包含多种水果的图像，如苹果、香蕉、樱桃等，总计42345张图片，分为训练集和验证集，共有64个水果类别。

github 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录