本書較為全面地梳理和研究詞表制作、N元分析、主題詞分析、索引行生成、顯著搭配提取、詞匯多樣性統計、平均詞長統計、詞長分布統計、平均句長統計、詞類占比統計、詞匯密度統計、MVR統計、詞匯復雜性統計、句式頻次統計等語料庫語言學中各種適用于日語數字人文研究的數字技術,詳細演示其在日語文本數據處理中的Python編程實現,并通過一系列研究實例剖析其在日語語言研究中的具體應用方法。本書既是一本Python編程入門書,也是一本語料庫語言學入門書,還是一本日語文本數據處理和日語數字人文研究的入門書。
鐘勇,男,1984年生,湖南人,中共黨員:博士畢業于日本九州大學,現任南京航空航天大學外國語學院副研究員、碩士生導師、日語系副主任及英語系與日語系聯合黨支部書記;主要研究領域為二語習得、語言數字人文、Python數據處理等;迄今已在《目語學習與研究》、【言語文化論究】等國內外學術期刊上發表論文30余篇,主持省部級、院校級課題項目等7項,出版學術專著2部。
第一章 日語數字人文及本書內容概要
1.1 什么是數字人文
1.2 什么是日語數字人文
1.3 本書主要內容
參考文獻
第二章 Python與PyCharm
2.1 什么是Python
2.1.1 Python簡介
2.1.2 Python安裝步驟
2.2 什么是PyCharm
2.2.1 PyCharm簡介
2.2.2 PyCharm安裝步驟及首次啟用
2.2.3 PyCharm基本操作
參考文獻
第三章 語料庫語言學概述
3.1 什么是語料庫
3.1.1 語料庫的定義
3.1.2 語料庫的類別
3.2 什么是語料庫語言學
3.2.1 語料庫語言學的定義
3.2.2 語料庫語言學的技術體系
參考文獻
第四章 日語詞表制作技術
4.1 技術概要與編程提示
4.2 基于IPA詞典的詞表制作編程實現
4.2.1 所用語料與編程步驟
4.2.2 分步代碼
4.2.3 完整代碼
4.3 基于UniDic詞典的詞表制作編程實現
4.3.1 所用語料與編程步驟
4.3.2 分步代碼
4.3.3 完整代碼
參考文獻
第五章 日語N元分析技術
5.1 技術概要與編程提示
5.2 三元序列分析編程實現
5.2.1 所用語料與編程步驟
5.2.2 分步代碼
5.2.3 完整代碼
參考文獻
第六章 日語主題詞分析技術
6.1 技術概要與編程提示
6.2 主題詞分析編程實現
6.2.1 所用語料與編程步驟
6.2.2 分步代碼
6.2.3 完整代碼
參考文獻
第七章 日語索引行生成技術
7.1 技術概要與編程提示
7.2 基于指定詞匯基本形及其活用形的索引行生成編程實現
7.2.1 所用語料與編程步驟
7.2.2 分步代碼
7.2.3 完整代碼
7.3 基于指定詞匯素的索引行生成編程實現
7.3.1 所用語料與編程步驟
7.3.2 分步代碼
7.3.3 完整代碼
參考文獻
第八章 日語顯著搭配提取技術
8.1 技術概要與編程提示
8.2 基于指定節點詞和窗口跨距的二詞詞塊顯著搭配提取編程實現
8.2.1 所用語料與編程步驟
8.2.2 分步代碼
8.2.3 完整代碼
8.3 基于句子單位的二詞詞塊顯著搭配全額提取編程實現
8.3.1 所用語料與編程步驟
8.3.2 分步代碼
8.3.3 完整代碼
8.4 基于依存關系的動賓詞塊顯著搭配提取編程實現
8.4.1 所用語料與編程步驟
8.4.2 分步代碼
8.4.3 完整代碼
參考文獻
第九章 日語語言特征統計技術
9.1 技術概要與編程提示
9.2 詞匯多樣性統計編程實現
9.2.1 所用語料與編程步驟
9.2.2 分步代碼
9.2.3 完整代碼
9.3 平均詞長、詞長分布及平均句長統計編程實現
9.3.1 所用語料與編程步驟
9.3.2 分步代碼
9.3.3 完整代碼
9.4 詞類占比、詞匯密度及MVR值統計編程實現
9.4.1 所用語料與編程步驟
9.4.2 分步代碼
9.4.3 完整代碼
9.5 詞匯復雜性統計編程實現
9.5.1 所用語料與編程步驟
9.5.2 分步代碼
9.5.3 完整代碼
9.6 句式頻次統計編程實現
9.6.1 所用語料與編程步驟
9.6.2 分步代碼
9.6.3 完整代碼
參考文獻
第十章 日語語言研究實例
參考文獻