Chia Hsun Wang
Chia Hsun Wang is currently working at the Institute of Information Science, Academia Sinica. Previously she was with Open Source Software Foundry (OSSF) and Creative Commons Taiwan, two projects hosted at Academia Sinica. With an engineering background and a passion for promoting open and free culture, her focus revolves around the topics of digital preservation and research data management.
Session
台灣《蘋果日報》2003 年創刊,至 2022 年網站停止更新,2023 年起無法瀏覽,自此該報近 20 年來記錄台灣過往生活、社會、娛樂與政治的新聞報導與各式評論隨之消失於線上。與其姊妹報香港《蘋果日報》相仿,該報社因多重原因解體,承載大量常民生活紀錄的網站因此離線,關於如太陽花與雨傘運動等重要當代事件的新聞,包含文字報導與影音內容,一般人再也難以線上取用,這對教育、研究與當代歷史的保存造成不小的影響。本報告將分享我們整理並轉換 Archive Team 於 2022 年以 WARC (Web ARChive) 格式封存的台灣《蘋果日報》網頁,並建構數十萬篇新聞內容的研究資料集的經驗。我們使用 IPTC (International Press Telecommunications Council) 的 ninjs(News in JSON)格式,轉錄這批封存檔案的內容,成為方便檢索使用的資料庫。祈望我們的嘗試能重啟這類孤兒報刊在公眾近用 (public access) 與研究使用的契機。
本次分享內容部份取自我們 2025 年 4 月於 Web Archiving Conferene 2025 (WAC2025)的報告: Recently Orphaned Newspapers: From Archived Webpages to Reusable Datasets and Research Outlooks (https://pid.depositar.io/ark:37281/k5p3h9k37)。