本書是對第十三屆和第十四屆中國機器學習及其應用研討會的一個總結,共邀請了與會的7位專家就其研究領域撰文,以綜述的形式探討了機器學習不同分支及相關領域的研究進展。這些內容涉及穩健的矩陣回歸模型、低秩模型的閉解、面向大規模學習的隨機優化、張量分解、基于遞歸神經網絡的圖像描述算法、標記分布學習及其應用,以及軟件缺陷挖掘。 本書可供計算機、自動化及相關專業的研究人員、教師、研究生和工程技術人員閱讀參考。
《機器學習及其應用2017(中國計算機學會學術著作叢書——知識科學系列)》是對第十三屆和第十四屆中國機器學習及其應用研討會的一個總結,共邀請了與會的7位專家就其研究領域撰文,以綜述的形式探討了機器學習不同分支及相關領域的研究進展。這些內容涉及穩健的矩陣回歸模型、低秩模型的閉解、面向大規模學習的隨機優化、張量分解、基于遞歸神經網絡的圖像描述算法、標記分布學習及其應用,以及軟件缺陷挖掘。 本書可供計算機、自動化及相關專業的研究人員、教師、研究生和工程技術人員閱讀參考。
前言
高陽陳松燦2017年9月4日機器學習及其應用2017目錄穩健的矩陣回歸模型與方法楊健羅雷1引言2基于核范數的穩健矩陣回歸3基于推廣冪指數分布的穩健矩陣回歸4基于核L1范數的聯合矩陣回歸5基于樹結構核范數的穩健矩陣回歸6結束語參考文獻若干低秩子空間恢復模型的閉解及其應用林宙辰1引言2無噪低秩表示模型的閉解2.1應用:潛在低秩表示模型的推導3無噪潛在低秩模型的閉解3.1應用:提升潛在低秩表示模型的聚類性能4若干主要低秩模型的解之間的關系4.1解的質量的比較4.2求解速度的比較5閉解應用的另一個例子:仿射變換下特征點誤匹配檢測6結束語參考文獻面向大規模機器學習的隨機優化張利軍1引言2相關工作3降低時間復雜度3.1研究背景3.2階段混合梯度下降3.3實驗4降低空間復雜度4.1研究背景4.2隨機臨近梯度下降4.3實驗5總結與展望附錄參考文獻非參貝葉斯張量分解研究徐增林賀麗榮嚴,豐漆,遠機器學習及其應用
目錄
1引言
2Tucker分解
3CP分解
4非參貝葉斯分解
4.1InfTucker分解
4.2InfTucker算法
4.3實驗結果
5結束語參考文獻基于遞歸神經網絡的圖像描述算法靳駿奇閆子昂張長水
1引言
2相關工作
3模型與方法
3.1基于多尺度局部色塊的圖像表示
3.2基于注意力的遞歸神經網絡解碼器
4實驗與分析
4.1實驗設定
4.2定量評估結果
4.3微軟比賽結果
4.4定性評估結果
5結束語參考文獻標記分布學習及其應用耿新徐寧
1引言
2學習框架
2.1符號及形式化定義
2.2評價指標
3標記分布學習算法
3.1“問題轉化”算法
3.2“算法改造”算法
3.3專用算法
4標記分布學習應用
4.1原始數據中的標記分布
4.2基于先驗知識的標記分布
4.3從數據集中學到的標記分布
5結束語參考文獻軟件缺陷挖掘黎銘
1引言
2基于編程模式挖掘軟件缺陷
3基于缺陷標注挖掘軟件缺陷
4基于缺陷報告挖掘軟件缺陷
5結束語參考文獻
1[]穩健的矩陣回歸模型與方法*楊健羅雷南京理工大學模式計算與應用實驗室,南京210094*本文得到國家自然科學基金(91420201和61472187)資助。1引言隨著網絡和信息技術的不斷發展,全球數據量呈現爆炸式增長。特別地,人類在最近兩年產生的數據量相當于之前產生的全部數據量。這些海量、復雜的數據已經對社會經濟、政治、文化以及生活等方面產生了深遠的影響。如何有效地分析它們使其更好地為人類服務是一個亟待解決的問題。近年來,機器學習方法已經滲透到了數據分析的各個方面,成為了其中的重要組成部分。它利用已知數據來學習和推理其中未知的、潛在的概率分布等重要信息,解釋數據樣本中變量(或特征)之間的關系。也就是說,它能從龐大的數據中揭示出數據的內在規律或本質結構。這種本質結構可方便人類對數據的理解,提高人類對數據的駕馭能力。為實現這一任務,我們首先要熟知數據分析中可能面臨的問題。一方面,在實際的信號和圖像采集與處理中,數據的維數越高,給數據的采集和處理帶來越多的限制。大規模的數據不僅存在著較多的冗余、無關的屬性,還會帶來維數的災難。另一方面,實際中數據往往結構復雜,例如采集的數據本身不完整或者存在大量的噪聲,這導致了一些傳統的數據處理技巧也許失效。基于線性回歸(linearregression,LR)分析的方法一直是機器學習領域的研究熱點。它的目的是估計測試數據與訓練數據之間的關系。值得注意的是,這種關系可理解成數據的一種內在結構。為避免過擬合,一個正則項需要強加到LR模型中。基于L1范數的正則項和基于L2范數的正則項是目前使用最廣泛的兩種正則項。L2范數正則化的線性回歸一般稱為脊回歸(ridgeregression)。該方法使用L2范數的平方來約束表示系數,并使用同樣的方式來刻畫表示殘差。
……