中文预训练词向量(知乎问答 word2vec +Ngram)
收藏阿里云天池2026-06-09 更新2024-03-07 收录
下载链接:
https://tianchi.aliyun.com/dataset/6543
下载链接
链接失效反馈官方服务:
资源简介:
中文预训练词向量北京师范大学中文信息处理研究所与中国人民大学 DBIIR 实验室的研究者开源的"chinese-word-vectors"。github地址为:https://github.com/Embedding/Chinese-Word-Vectors
此中文预训练词向量为知乎Word + Ngram的词向量
The "chinese-word-vectors" Chinese pre-trained word vector dataset was open-sourced by researchers from the Institute of Chinese Information Processing at Beijing Normal University and the DBIIR Laboratory of Renmin University of China. The official GitHub repository for this dataset is https://github.com/Embedding/Chinese-Word-Vectors. This Chinese pre-trained word vector set is a Word + Ngram word vector trained on the Zhihu corpus.
提供机构:
阿里云天池
创建时间:
2018-11-22
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是北京师范大学与中国人民大学研究者开源的中文预训练词向量,基于知乎问答数据,采用word2vec与Ngram技术生成。数据文件为sgns.zhihu.bigram.bz2,需重命名后才能通过gensim工具加载使用。
以上内容由遇见数据集搜集并总结生成



