Ak
陽明交大資工系學生,曾在 IJCAI 與 AAAI 發表兩篇 LLM 相關論文。熱衷於自然語言處理相關研究,閒暇之餘也喜歡進行前端開發。同時是資訊社群的活躍參與者,目前在陽明交大軟體開發社(NYCU SDC)擔任社長,也在 SITCON 多個活動中現身。可以在 https://kuo.is 找到更多他的資訊。
Session
08-10
10:10
30min
極致量化:用少於兩個位元表示 LLM 的權重
Ak
隨著 LLM 的應用越發廣泛,載入開源模型權重的顯存要求也越苛刻。在邊緣系統中,龐大的顯存需求時常成為部署瓶頸,限制模型的應用場景。量化模型雖然能有效降低所需的顯存與計算量,但如何在極低位元下仍保持優異性能,始終是一大挑戰。本場議程將從量化開始,簡介量化的概念後,討論量化在低位元樹下的限制。接著,我們將深入介紹 BitNet 系列方法,討論研究團隊如何透過 -1, 0, +1 三種權重,將 LLM 的權重透過少於 2 個 bit 呈現。除了權重表示的調整以外,我們也會提及 activation 層級的量化,及基於激活敏感度的選擇性量化所能帶來的表現提升。最後,我們會從 scaling law 的角度出發,討論 BitNet 既有的模型與未來可能的發展。期待透過極致量化,為 LLM 在邊緣裝置上的應用開闢全新途徑。
Open Edge AI & TinyML
TR409-2