2025-08-09 –, RB105
在生成式AI的世界中,各區域非強勢語言可能面臨弱勢的情況。我們是如何號召以及整合在地語言及語料,結合IMA協會、文學界(胡長松作家及眾多文學作家)、學術界(陽明交通大學廖元甫教授)、與AI工程界(群聯電子),聯手打造更懂得台灣在地語言與語境的LLM !
邀請您來了解這段台灣在地語言開源的奇航,您會聽到:
1. 號召台灣文學界開源台灣本土語料的奇幻旅程
2. 開源語料庫Taiwan Tongues (台灣語言通用語料庫)介紹
3. 如何運用Taiwan在地語料(以台語為例),訓練一個最懂台灣語言的LLM
4. 訓練方法及程式都開源,讓你也能隨手打造自己的台灣LLM
5. 發揮創意打造自己的台灣在地語言LLM應用
初學者
胡長松,國立清華大學資訊工程碩士,目前於台灣大哥大資訊群擔任處長。他同時也是一位台灣文學作家,曾獲吳三連獎文學獎和金鼎獎文學圖書出版獎。出版有小說集8本(其中6本以台語創作),以及2本台語詩集。2025年起他加入IMA發起的Taiwan Tongues計劃,號召作家貢獻語料,以讓全世界AI更能理解台灣語言,此行動受到社會各界關注。
(加入廖元甫教授簡介)
林緯博士現任群聯電子技術長,負責產品規劃、AI技術與NAND快閃記憶體相關演算法開發。他擁有200多項NAND專利,相關發明已應用於全球超過三十億顆控制IC出貨。曾主導多家海外子公司的設立並擔任副總與技術長。林博士畢業於交大電子所,目前亦為陽明交大兼任助理教授,推動群聯與學界的產學合作與先進記憶體技術開發。
IMA(中華民國資訊經理人協會),於2025年發起及倡議的Taiwan Tongues (台灣語言通用語料庫)專案,旨在彙整台灣各通行語言語料庫,盡可能建立完整索引,並透過台灣民間的力量,擴充台灣本土語言的語料庫,亦旨在讓世界各地的大型語言模型可以藉此索引及語料庫,更有效率地取得語料庫以進行合作,提升台灣語言在AI時代的影響力。