five

维基百科(wiki2019zh)|自然语言处理数据集|知识图谱数据集

收藏
github2019-03-05 更新2024-05-31 收录
自然语言处理
知识图谱
下载链接:
https://github.com/huhuigou/nlp_chinese_corpus
下载链接
链接失效反馈
资源简介:
可以做为通用中文语料,做预训练的语料或构建词向量,也可以用于构建知识问答。

This dataset can serve as a general-purpose Chinese corpus, suitable for pre-training materials or constructing word vectors, and can also be utilized for building knowledge-based question answering systems.
创建时间:
2019-02-16
原始信息汇总

数据集概述

维基百科(wiki2019zh)

  • 规模: 包含1,043,224个词条,原始文件大小1.6G,压缩文件519M。
  • 更新时间: 2019年2月7日。
  • 结构: 数据格式为JSON,包含字段:id, url, title, text
  • 用途: 可用于预训练语料、构建词向量或知识问答系统。

新闻语料(news2016zh)

  • 规模: 包含250万篇新闻,原始数据9G,压缩文件3.6G,内容跨度为2014-2016年。
  • 结构: 数据格式为JSON,包含字段:news_id, title, content, source, time, keywords, desc
  • 用途: 可用于训练词向量、预训练语料、标题生成模型或关键词生成模型。

百科类问答(baike2018qa)

  • 规模: 包含150万个问答,原始数据1G多,压缩文件663M,数据更新时间为2018年。
  • 结构: 数据格式为JSON,包含字段:qid, category, title, desc, answer
  • 用途: 可用于训练词向量、预训练语料或构建百科类问答系统。

翻译语料(translation2019zh)

  • 规模: 包含520万个中英文平行语料,原始数据1.1G,压缩文件596M。
  • 结构: 数据格式为JSON,包含字段:english, chinese
  • 用途: 可用于训练中英文翻译系统,或作为通用中文语料用于词向量训练和预训练。

数据集贡献

  • 联系方式: 通过邮箱nlp_chinese_corpus@163.com贡献中文语料。
  • 贡献激励: 根据语料质量和量级,选出前20名贡献者,提供键盘、鼠标、显示屏、无线耳机、智能音箱或其他等值物品作为感谢。
AI搜集汇总
数据集介绍
main_image_url
构建方式
维基百科(wiki2019zh)数据集的构建,是通过从维基百科抓取104万个词条,每个词条包含标题和正文,并以JSON格式存储。构建过程中,对数据进行了去重和清洗,确保了数据的质量和一致性。
使用方法
使用该数据集时,用户可以直接下载并解压得到JSON文件,之后可以利用相关处理工具提取出所需的词条信息。适用于词向量训练、知识问答构建、句子相似性任务等多种场景,用户可以根据具体需求进行相应的预处理和模型训练。
背景与挑战
背景概述
维基百科(wiki2019zh)数据集是在2019年2月7日更新的,包含了1,043,224个词条,是中文自然语言处理领域的重要资源。该数据集由nlp_chinese_corpus项目提供,旨在为中文自然语言处理研究贡献大量的语料。此数据集的构建,是为了解决当时中文语料获取困难的问题,特别是对于希望训练中文词向量的研究人员和学生。该数据集的主要研究人员或机构不详,但它的影响力在中文自然语言处理领域是显著的,为研究者提供了丰富的语料资源,推动了相关研究的进展。
当前挑战
在构建维基百科数据集的过程中,研究人员面临了多个挑战。首先,获取大量的中文语料并非易事,需要克服版权和获取渠道的问题。其次,语料的处理和清洗也是一项艰巨的任务,包括去除重复内容、处理乱码和纠正错误等。此外,数据集的维护和更新也是持续的挑战,需要确保语料的时效性和准确性。在研究领域,如何有效地利用这些语料来训练模型、提高模型的性能,以及如何处理数据集中的噪声和偏差,都是当前和未来的挑战。
常用场景
经典使用场景
维基百科(wiki2019zh)数据集作为中文自然语言处理领域的重要资源,其经典使用场景在于构建预训练语言模型和词向量。通过该数据集,研究者能够训练出在语义理解和文本生成等方面表现卓越的模型,进而提升诸如问答系统、机器翻译等自然语言处理任务的效果。
解决学术问题
该数据集解决了中文自然语言处理领域缺乏大规模高质量语料的问题,为学术研究提供了丰富的文本资源。它使得研究者能够基于大规模语料进行深度学习模型的训练,从而解决诸如词义消歧、文本分类、情感分析等学术难题,推动相关研究的进展。
实际应用
在实际应用中,维基百科(wiki2019zh)数据集可用于改善搜索引擎的语义理解能力,优化推荐系统的内容相关性,以及提升智能问答系统的准确性和响应速度。此外,该数据集也为中文内容审核和自动摘要等应用提供了强有力的支撑。
数据集最近研究
最新研究方向
近年来,维基百科数据集在自然语言处理领域中的应用愈发广泛。学者们利用wiki2019zh数据集进行词向量训练,以提升模型的语义理解能力。此外,该数据集也常用于构建知识图谱,支持问答系统的研究,特别是在百科类问答领域。近期研究还关注于如何通过维基百科内容进行情感分析、观点挖掘等任务,以期为舆情监控、智能客服等应用提供技术支持。维基百科数据集因其内容丰富、覆盖面广,为这些研究方向提供了坚实的基础,推动了中文自然语言处理技术的进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录