2025年8月9日 –, TR412-2
Openfun 團隊長期致力於讓國會資訊更加即時、透明,近期嘗試利用 whisper fine-tuning 來生成立法院各級會議的逐字稿。
場景
立法院開完會之後,官方需花費兩週以上製作公報逐字稿,即時性不足,若能利用 ASR 自動語言辨識技術於會議影片釋出當天就將逐字稿產生出來,將可大大地提高即時性,相信對於媒體與關心政治的單位或個人都能有所幫助。
但現有的 ASR 服務或工具提供的通用模型無法辨識出特定領域的專有名詞,遇到國台語參雜的情況辨識度也會很低,故希望透過 fine-tuning 來產生適用於國會場景的模型。
分享重點
- 訓練資料集:使用 whisper 轉錄結果搭配立法院公報逐字稿產生資料集的開發過程、遇到的問題及解決方案。
- 模型優化程度:分享各種 whisper models 與資料量在 fine tune 前後的準確度分數之數據,以及國會議題辨識成功之案例。
- 辨識說話者:如何使用 whisperx 及 pyannote embeddings 搭配公報逐字稿的資訊實現說話者辨識。
想瞭解用於特定場景之 AI 語音轉逐字稿的開發者、對 Whisper fine-tuning 有興趣的開發者
難易度:中階