COSCUP 2023

自家用 Kotlin 爬蟲實戰:以統整多平台 Podcast 聆聽數據為例
2023-07-29, 10:10–10:40 (Asia/Taipei), AU
Language: Traditional Chinese (Taiwan)

使用爬蟲截取網頁上的資訊已是常見的資料處理技術。由於數據分析的盛行,市面上的教學大多以 Python 示例。但其實剖析爬蟲技術的核心,坐擁 JVM 生態系的 Kotlin 也能輕鬆辦到。在這場分享裡,將會以 Kotlin 爐邊漫談 Podcast 節目製作組需要統整各平台聆聽數的需求為例,說明如何使用 JVM 生態系的解析套件及爬蟲框架抓取目標資料並整理儲存至資料庫。另外,也會針對不同的資料格式來源、定時排程等延伸主題進行討論。聽完這場分享後,Kotlin 初學者也能快速上手,快速成為爬蟲擷取能手。


預計分享大綱如下: * Kotlin 爐邊漫談 Podcast 的故事 * 需求分析 * 探討爬蟲技術核心 * 以 Kotlin 實作爬蟲原型
- 探索可用套件
- 抓取 Raw 資料
- 轉成資料模型
- 存進資料庫 * 更進一步
- 關於資料格式
- 定時運行 * 總結與回顧


Difficulty

入門

Target Audience

對 Kotlin 程式語言有基本認識,對使用 Kotlin 撰寫網路爬蟲 (Crawler) 有興趣的開發者

JetBrains 技術傳教士,負責推廣 IDE 工具及開放原始碼技術。平時醉心於技術研究,期待能將複雜的技術詞彙以通俗易懂的方式讓人人都能吸收。工作之餘積極參與 PHP 及 Kotlin 社群運作,曾創辦 Laravel 道場、LaravelConf Taiwan、Kotlin 讀書會/練功場及 Kotlin 中文開發者大會,錄了 Kotlin 爐邊漫談 Podcast,還意外出了一本《Kotlin Collection 全方位解析攻略》。技術之外是位甜點吃貨。

This speaker also appears in: