COSCUP 2025

極致量化:用少於兩個位元表示 LLM 的權重
2025-08-10 , TR409-2

隨著 LLM 的應用越發廣泛,載入開源模型權重的顯存要求也越苛刻。在邊緣系統中,龐大的顯存需求時常成為部署瓶頸,限制模型的應用場景。量化模型雖然能有效降低所需的顯存與計算量,但如何在極低位元下仍保持優異性能,始終是一大挑戰。本場議程將從量化開始,簡介量化的概念後,討論量化在低位元樹下的限制。接著,我們將深入介紹 BitNet 系列方法,討論研究團隊如何透過 -1, 0, +1 三種權重,將 LLM 的權重透過少於 2 個 bit 呈現。除了權重表示的調整以外,我們也會提及 activation 層級的量化,及基於激活敏感度的選擇性量化所能帶來的表現提升。最後,我們會從 scaling law 的角度出發,討論 BitNet 既有的模型與未來可能的發展。期待透過極致量化,為 LLM 在邊緣裝置上的應用開闢全新途徑。


Target Audience:

對 LLM 量化有興趣的參與者,了解自注意力機制者佳

Difficulty:

中階

Ak

Temp