2025-08-10 –, AU
-
在深度學習廣泛應用的今天,大型神經網路模型雖然在分類、預測、推薦等任務中展現出色表現,但實務上經常出現模型準確率看似正常、實際效果卻不如預期的情況。當模型學習結果與預期落差過大時,往往難以快速釐清問題根源,是資料品質不佳、架構設計不當,還是訓練動態出了問題?因此,如何診斷模型內部行為、輔助定位異常與優化方向,成為研究與工程實務中必須解決的挑戰。雖已有如 Captum(針對特徵重要性)與 TorchLens(模型架構除錯)等工具協助分析,但多半著重於單一維度,缺乏整體性的訓練行為觀察與診斷能力。
講者將介紹一個 plug-and-play 分析工具,靈感來自 Transformers without Normalization 論文中對 hidden layer output 的研究,並融合講者在深度學習架構上的實務經驗。該工具可於標準 PyTorch 訓練流程中擷取中間的 activation、gradient 與 weight 作為輸入,輸出包含 CKA 相似度、LayerNorm 分佈、hidden state dynamics、PCA/UMAP 降維、gradient norm 變化等視覺化分析,協助使用者從多角度理解模型的學習行為。
使用者可透過 Streamlit 視覺化介面,快速將此工具整合進既有訓練流程,協助釐清模型問題來源並提供具體的優化方向。無論是進行 representation learning 研究,或是工程團隊進行模型品質監控與除錯,皆能派上用場。
對 Deep Learning 有興趣者
Difficulty:中階