在 2013 年 Google 公布了一個開源項目 word2vec,有別於以往常用的文字探勘的模型 RNN ( recurrent neural network) 或 N-gram model,word2vec 提供了另一個角度來理解非結構化的純文字資料。在這篇會稍微介紹 word2vec 的原理,並分析鉅亨網的頭條新聞。
Stranity Blog
在 2013 年 Google 公布了一個開源項目 word2vec,有別於以往常用的文字探勘的模型 RNN ( recurrent neural network) 或 N-gram model,word2vec 提供了另一個角度來理解非結構化的純文字資料。在這篇會稍微介紹 word2vec 的原理,並分析鉅亨網的頭條新聞。
文字探勘 ( Text mining ) 通常用在擷取非結構化資料,我們的生活中存在著許多非結構化的資料,像是新聞、網路論壇 PTT、Mobile01 、社群網站 Facebook、 Twitter 等等文字相關的資料。