five

中文预训练词向量(知乎问答 word2vec +Ngram)

收藏
阿里云天池2026-06-09 更新2024-03-07 收录
下载链接:
https://tianchi.aliyun.com/dataset/6543
下载链接
链接失效反馈
官方服务:
资源简介:
中文预训练词向量北京师范大学中文信息处理研究所与中国人民大学 DBIIR 实验室的研究者开源的"chinese-word-vectors"。github地址为:https://github.com/Embedding/Chinese-Word-Vectors 此中文预训练词向量为知乎Word + Ngram的词向量

The "chinese-word-vectors" Chinese pre-trained word vector dataset was open-sourced by researchers from the Institute of Chinese Information Processing at Beijing Normal University and the DBIIR Laboratory of Renmin University of China. The official GitHub repository for this dataset is https://github.com/Embedding/Chinese-Word-Vectors. This Chinese pre-trained word vector set is a Word + Ngram word vector trained on the Zhihu corpus.
提供机构:
阿里云天池
创建时间:
2018-11-22
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是北京师范大学与中国人民大学研究者开源的中文预训练词向量,基于知乎问答数据,采用word2vec与Ngram技术生成。数据文件为sgns.zhihu.bigram.bz2,需重命名后才能通过gensim工具加载使用。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务