這次的分享主要是針對入門的文本分析步驟,雖然沒有太多技術細節,但至少可以讓沒有接觸過這一塊的人了解可能的作法與需要的工具 資料分析可以簡單的分為三大步驟: 收集資料 過濾資料 顯示資料 收集資料 爬蟲(Crawling)是一種收集資料的手段,針對網站可以分析 html 架構之後再透過相關 http client 的 library 撰寫程式取得資料,像是 python 的 requests 與 BeautifulSoup 的搭配使用 另外如果該網站或是該服務有提供 API,那我們只要透過 API