2025年8月9日 –, TR512
台灣《蘋果日報》2003 年創刊,至 2022 年網站停止更新,2023 年起無法瀏覽,自此該報近 20 年來記錄台灣過往生活、社會、娛樂與政治的新聞報導與各式評論隨之消失於線上。與其姊妹報香港《蘋果日報》相仿,該報社因多重原因解體,承載大量常民生活紀錄的網站因此離線,關於如太陽花與雨傘運動等重要當代事件的新聞,包含文字報導與影音內容,一般人再也難以線上取用,這對教育、研究與當代歷史的保存造成不小的影響。本報告將分享我們整理並轉換 Archive Team 於 2022 年以 WARC (Web ARChive) 格式封存的台灣《蘋果日報》網頁,並建構數十萬篇新聞內容的研究資料集的經驗。我們使用 IPTC (International Press Telecommunications Council) 的 ninjs(News in JSON)格式,轉錄這批封存檔案的內容,成為方便檢索使用的資料庫。祈望我們的嘗試能重啟這類孤兒報刊在公眾近用 (public access) 與研究使用的契機。
本次分享內容部份取自我們 2025 年 4 月於 Web Archiving Conferene 2025 (WAC2025)的報告: Recently Orphaned Newspapers: From Archived Webpages to Reusable Datasets and Research Outlooks (https://pid.depositar.io/ark:37281/k5p3h9k37)。
對當代典藏有興趣的人
難易度:初學者
王家薰目前任職於中央研究院資訊科學研究所,曾參與在中央研究院執行的自由軟體鑄造場及台灣創用 CC 計畫。具工程師的背景並熱愛開放自由的風氣,關注數位保存及研究資料管理相關資訊,目前為研究資料管理計畫的專案經理,致力於推廣研究資料管理的概念並向下扎根。
Tyng-Ruey Chuang is an Associate Research Fellow at the Institute of Information Science, Academia Sinica, with joint appointments at both the Research Center for Humanities and Social Sciences (Center for GIS) and the Research Center for Information Technology Innovation.
I’m Hung-Yen (Jimmy) Wu, a computer science student at NYCU with a strong passion for reinforcement learning, AI, and mathematical thinking. I enjoy solving tough problems through both theory and engineering — from network debugging to research in imitation learning (ICML 2025).
I’ve interned at Academia Sinica, contributed to AI and archiving projects, and founded the Math Department soccer team. Curious, hands-on, and research-driven, I’m always eager to learn and collaborate on meaningful tech challenges.