尚無標記。
Word Embedding
Word Embedding則是利用另外一種方法來找出文章中的關鍵字詞,由於中文字無法進行直接運算,而將文章中的字詞投射在向量上,以數學的方式來表示,是一種低維度向量形式的單詞表示,能夠代表單詞的部分語意及含義。再把算出結果相近之字詞提出,就可以找到許多具有類似意義的詞彙,藉此來改進專利品質分析的結果。
例如:對於任意兩個已經用Word Embedding形式表示的單詞,我們可以簡單通過計算兩個向量之間的cnosole相似x,就得出兩個單詞辭義接近程度,比如通過計算可以得知如下單詞的語意相似x:
台灣”,WE”香港”)=0.79
林志玲”,WE”舒淇”)=0.93
於是乎,對於輸入的句子的某個單詞,我們可以從所有其他單詞中找出和這個單詞語意最接近的一部分單詞,也就是Cosine得分最高的一批單詞。