COSCUP 2023

利用本地端顯卡建立Llama.cpp模型
2023-07-30, 13:00–13:30 (Asia/Taipei), TR 615
Language: Traditional Chinese (Taiwan)

本文將介紹如何利用本地端顯卡建立Meta新推出的大語言模型LLaMA後的c/c++輕量版本Llama.cpp,並利用Micromamba管理其運行環境。
首先,Llama.cpp是一種先進的文本預測模型,類似於GPT-2與GPT-3,但未經過微調,適合於大範疇的問答應用。使用本地端顯卡進行模型訓練能更有效地管理資源。
我們將利用Micromamba,這是一個簡潔、快速且隔離的Python環境管理工具,用於安裝和管理需要的Python庫。
接著,模型訓練的原理主要在於使模型學習如何根據上下文預測下一個文字。訓練完成後,模型將能生成與訓練數據相似的新文本。最後,關於Llama.cpp處理中文的能力,儘管其主要以英文為主,但透過適當的訓練與微調,仍有潛力達到理想的中文生成水平。


在本次分享中我將介紹meta推出的語言訓練的model,他的輕量化版本Llama.cpp。

首先Llama.cpp的訓練原理因LLaMA和GPT-J模型相似,所以可以先使用GPT-J模型ggml版本將LLaMA相關參數移植到GPT-J-ggml版本上(ggml版本使用c語言架構),其優點為
1.原本精度16bit的LLaMA量化為只需要4bit就可以跑,大大降低硬體的限制。
2.支援CPU訓練,比起LlaMA硬體上的限制提供不少的解方
3.沒有道德限制,故可以自由的調整參數成自己想要的應對場景

Micromamba是Mamba軟體包管理器的迷你版。它是一個靜態連接的C++可執行檔,並帶有獨立的命令行介面。它不需要基本環境,也不提供預設的Python版本,可隨意建立必要的測試環境。

最後利用本地端顯卡建立Llama.cpp模型後運行

這個分享將提供實用的知識和技巧,適合想要了解語言模型實作的開發者有興趣的人參加。讓我們一起探索使用Llama.cpp的實作!


Difficulty

入門

Target Audience

開發者、普羅大眾

hello,我是張奕爲(Will),喜歡挑戰不同領域不同事物,目前Java具備建構全端網站經驗、專案開發方面經歷,約4年的開發經驗,往後將著重於Web Application專案開發。業餘會開發一些自己感興趣的side project