
科研進展
重慶研究院在半監(jiān)督分類學習技術(shù)研究中取得系列進展
時間:2017-09-15編輯:信息所大數(shù)據(jù)挖掘及應(yīng)用中心
近日,重慶研究院大數(shù)據(jù)挖掘及應(yīng)用中心團隊在對半監(jiān)督分類學習及其應(yīng)用開展的研究中,取得系列進展。 相關(guān)研究成果發(fā)表在IEEE Transactions on Industrial Informatic、Neurocomputing和Ecological Indicators等期刊上,研究獲得國家科技重大專項“水體污染防治與治理”項目支持。
監(jiān)督學習,是兩種基本的機器學習方式之一,其基本原理是通過分析大量已標記的數(shù)據(jù)信息,根據(jù)某些假設(shè)挖掘出數(shù)據(jù)信息的內(nèi)部規(guī)律,建立相應(yīng)學習系統(tǒng),從而對未見樣本信息進行估計與預(yù)測。然而,在現(xiàn)實生產(chǎn)生活中想要獲取足夠多的標記數(shù)據(jù)非常困難,因為這需要耗費大量的人力物力來實現(xiàn)對海量數(shù)據(jù)的預(yù)先標記。在大數(shù)據(jù)時代,更多情況則是海量未標記數(shù)據(jù)與少量標記數(shù)據(jù)同時存在,如何通過僅有的少量標記數(shù)據(jù)和海量的未標記數(shù)據(jù)來學習實現(xiàn)優(yōu)秀分類系統(tǒng)顯得尤為重要。半監(jiān)督分類學習,研究如何利用大量未標記數(shù)據(jù)輔助少量標記數(shù)據(jù)進行學習以改進分類學習系統(tǒng)性能,近年來成為機器學習領(lǐng)域研究熱點,并被廣泛應(yīng)用于工業(yè)、農(nóng)業(yè)和交通等領(lǐng)域。
首先,研究團隊針對現(xiàn)有傳統(tǒng)自標記半監(jiān)督分類模型的局部最優(yōu)解、僅適用球狀數(shù)據(jù)問題,提出了一種基于數(shù)據(jù)密度峰值的自標記半監(jiān)督分類模型。該模型通過無監(jiān)督的計算數(shù)據(jù)密度峰值,發(fā)現(xiàn)數(shù)據(jù)內(nèi)部聚類知識空間結(jié)構(gòu)特征,進一步將此聚類知識空間結(jié)構(gòu)特征引入自標記半監(jiān)督分類學習訓練過程,可實現(xiàn)高質(zhì)量的半監(jiān)督分類計算。其次,研究團隊針對傳統(tǒng)自標記半監(jiān)督分類模型在自訓練迭代過程中的錯誤標記問題,提出了一種適應(yīng)于所有自標記半監(jiān)督分類模型的優(yōu)化框架。該優(yōu)化框架通過將差分進化算法引入自標記半監(jiān)督分類模型的自訓練迭代過程,實現(xiàn)對所有標記數(shù)據(jù)點的監(jiān)督優(yōu)化,可最大程度避免錯誤標記問題在自訓練迭代過程中的出現(xiàn),從而提升分類學習系統(tǒng)性能。最后,研究團隊針對水體富營養(yǎng)化這一全球性水環(huán)境問題,提出了一種基于自標記半監(jiān)督分類算法的水體富營養(yǎng)化評價模型。該評價模型通過將上述半監(jiān)督分類學習應(yīng)用于水體富營養(yǎng)化評價,解決了傳統(tǒng)富營養(yǎng)化評價方法與模型面臨的所需指標獲取代價太高和實時監(jiān)測大數(shù)據(jù)處理能力不足的問題,其研究成果將有助于在大數(shù)據(jù)時代下對水庫富營養(yǎng)化問題實現(xiàn)科學認知與評價。
論文鏈接:
2.http://www.sciencedirect.com/science/article/pii/S0925231217309608?via%3Dihub
基于數(shù)據(jù)密度峰值的自標記半監(jiān)督分類模型流程圖
自標記半監(jiān)督分類模型優(yōu)化框架示意圖