维基百科(wiki2019zh)|自然语言处理数据集|知识问答数据集
收藏数据集概述
数据集目标
- 一期目标:10个百万级中文语料 & 3个千万级中文语料(2019年5月1号)
- 二期目标:30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料(2019年12月31日)
数据集更新
- 增加高质量社区问答json版(webtext2019zh),410万个问答,适合训练超大模型
- 添加520万翻译语料(translation2019zh),中英文句子对
数据集内容
-
维基百科(wiki2019zh)
- 数量:100万个结构良好的中文词条
- 用途:通用中文语料,预训练语料,构建词向量,知识问答
- 结构:{"id":<id>,"url":<url>,"title":<title>,"text":<text>}
-
新闻语料(news2016zh)
- 数量:250万篇新闻,含关键词、描述
- 用途:通用中文语料,训练词向量,预训练语料,标题生成,关键词生成
- 结构:{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
-
百科问答(baike2018qa)
- 数量:150万个带问题类型的问答
- 用途:通用中文语料,训练词向量,预训练语料,百科类问答
- 结构:{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
-
社区问答json版(webtext2019zh)
- 数量:410万个高质量社区问答
- 用途:构建百科类问答,话题预测,社区问答系统,大模型预训练,词向量训练
- 结构:{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
-
翻译语料(translation2019zh)
- 数量:520万个中英文平行语料
- 用途:训练中英文翻译系统,通用中文语料,词向量训练
- 结构:{"english": <english>, "chinese": <chinese>}
数据集贡献
- 贡献方式:发送邮件至nlp_chinese_corpus@163.com
- 贡献奖励:根据语料质量和量级,选出前20个贡献者,寄出键盘、鼠标、显示屏、无线耳机、智能音箱或其他等值物品。

中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
CAP-DATA
CAP-DATA数据集由长安大学交通学院的研究团队创建,包含11,727个交通事故视频,总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口,还提供了详细的文本描述,包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息,提高交通事故预测的准确性和解释性,从而支持更安全的驾驶决策系统。
arXiv 收录
Fruits-360
一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。
github 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录