內容上,本書力求系統地介紹基于深度學習的圖文多模態信息處理技術,側重介紹最通用、最基礎的技術,覆蓋了多模態表示、對齊、融合和轉換等四大關鍵技術。同時也介紹了多模態信息處理領域的**發展前沿——多模態預訓練模型。此外,為了讓讀者可以實踐這些多模態深度學習技術,本書提供了四個完整的實戰案例,分別對應多模態表示、對齊、融合和轉換這四個關鍵技術。
具體而言,本書的內容分為四個部分:初識多模態信息處理、單模態表示、多模態信息處理的關鍵技術、多模態預訓練模型。
第一部分包括兩個章節:第1章介紹多模態信息的基本概念、難點、使用深度學習方法的動機、多模態信息處理的關鍵技術以及這些技術的發展歷史,第2章介紹若干同時涉及圖像和文本的多模態熱門研究任務。
第二部分包括兩個章節:第3和4章分別介紹了多模態信息處理中常用的文本表示和圖像表示方法。
第三部分包括四個章節:第5、6、7、8章分別介紹面向特定任務的多模態表示、對齊、融合和轉換這四個關鍵技術,且每一章都提供了一個可運行的完整的實戰案例。
第四部分包括一個章節:第9章介紹綜合使用上述關鍵技術,并以學習通用多模態表示為目標的多模態預訓練模型。