參、暑期間完成之工作
文字探勘與專利指標
在一個資訊爆炸的時代,企業、學者、專家們各個為了提升自我的競爭力以及優勢,不斷研發新型專利來充實自己的優勢,或是透過新科技加以改善以往的作業流程,發明各項新型專利。然而這些專利大多可以在網路上輕鬆就找到,大家都可以針對自己有興趣的專利來閱讀了解。
那面對龐大的專利文章,大多的人都無從下手,此時我們便可以透過文字探勘來分析專利,探討專利內容以及未來發展趨勢,利用關鍵字分析來挖掘專利文章中的知識。
我們利用將句子拆解為單字,利用出差解出的單字計算各個單字在文章中出現的頻率得出專利指標,利用這些指標建立之前所學到的類神經模型,在算出權重等等係數,可將未知的專利進行品質預測,在往後研發新技術或是觀察市場專利分布可以更快速了解資訊。
我們在研究期間主要以先前學姊資料為主,並用方法加以改良,以太陽能薄膜電池的專利文件為主,出版年間為1974~2013總共40年為期。
在計算的過程中,會運用到許多參數,也有類似像數學函式的「模型」,有了一個模型,我們才能夠計算出我們要的結果,而這個模型我們用八個特徵指標來建構出:
用測試資料集驗證系統效能,而各類的分類結果會被記錄於混淆矩陣中,並透過三個指標來觀測各類別的分類結果,還有評比系統的分類效能。以下對三種指標進行說明:
分類模型(Classification)
為監督式學習的一種,由於之前在實習期間就有讀過類似的研究論文,在理解上其實並不困難,透過已知的歷史訊息來進行,目的在於建立可描述或區分資料類別的模型,而該模型可預測未來未知物件之所屬類別。
實際在操作並且改良先前學姊的結果其實並沒有想像中那麼簡單,我們透過不斷地改變參數來超越先前學姊預測的結果,先前用運用Gauss模型來進行,而我們則用poly:
TF與IDF(Term Frequency - Inverse Document Frequency)
TF值講直白一點就是一個單字在整篇文章中所出現的頻率,IDF則是以所有文件總數來看—TF範圍較小,IDF較大。
假設j是某一特定文件,i為文件中的單字其中一種,那麼n(I,j)就是在i文件中j這個單字的出現次數,那麼tf(I,j)的算法就是:n(i,j)/( n(1,j)+ n(2,j)+ n(3,j)+…+ n(i,j))。
IDF值範圍較大,假設D是所有文件總數,i是文件中所使用的單字,t(i)是該文字在所有文件中出現過的文件數則IDF算法則為:log ( D/t(i) ) = log D – log t(i)。 最後,將 tf(i,j) * idf(i)來進行計算,以某一特定文件內的高單詞頻率,乘上該單詞在文件總數中的低文件頻率,便可以產生 TF-IDF 權重值,且 TF-IDF 傾向於過濾掉常見的單詞,保留重要的單詞。 要知道一篇文章中並不是所有的單字都是重要的,例如:學校相關的文章內:元智大學和資管系,我們今天如果要專注於焦點在於資管系發生了什麼事情,但文章中卻頻頻出現元智大學資管系,導致兩個詞彙出現的次數快相同,但是我們只是要得知資管系的資訊,就得透過IF和IDF來進行篩選,算出資管系的權重高於元智大學。