Java实现中文word2vec

Java基础

浏览数:63

2020-5-30

AD:资源代下载服务

依赖:

  1. java深度学习框架,deeplearning4j:http://deeplearning4j.org/word2vec

  2. 开源中文分词框架,ansj_seg:http://www.oschina.net/p/ansj

  3. 项目GitHub地址:https://github.com/YuyuZha0/word2vec

     

     

说明:word2vec深层次的原理不做说明,要实现word2vec主要要做到只有一件事,那就是词汇的识别。英文由于是空格符隔开的,所以分词比较容易,但是中文(包括日文、韩文)等是靠字形成句子的,所以借助分词工具将句子进行语法拆分很重要。word2vec借助一定的模型,通过对语料上下文进行分析,从而将词的含义投射到向量空间。相似的词在向量空间夹角很小,而不同的词差别则较大。需要注意的是,这一过程是不需要人工干预的,你只需要准备好语料即可.

 

2016-12-19更新:所有代码均迁移到了GitHub

 

 

作者:Acce1erator