Python general crawler writeup
Python

Python general crawler writeup

這篇文章是紀錄我第一個爬蟲任務的 writeup。在之前我只能說自己對爬蟲有點概念,但開始做這個比較 general crawling 的任務之後,對於學習爬蟲的過程有了一點脈絡。這次被要求的爬蟲內容為取得上千個網站中的所有圖片、影片與文件,但為了減少我們儲存資料的容量,我們設計成圖片與影片只抓取其來源,而文件因功能需求抓取完整檔案。

  • Chen-Ming Yang
    Chen-Ming Yang
10 min read
資料分析入門:具有影響力的文章關鍵字
data

資料分析入門:具有影響力的文章關鍵字

這次的分享主要是針對入門的文本分析步驟,雖然沒有太多技術細節,但至少可以讓沒有接觸過這一塊的人了解可能的作法與需要的工具 資料分析可以簡單的分為三大步驟: 收集資料 過濾資料 顯示資料 收集資料 爬蟲(Crawling)是一種收集資料的手段,針對網站可以分析 html 架構之後再透過相關 http client 的 library 撰寫程式取得資料,像是 python 的 requests 與 BeautifulSoup 的搭配使用 另外如果該網站或是該服務有提供 API,那我們只要透過 API 做 request 就可以拿到整理好的資料(

  • Chen-Ming Yang
    Chen-Ming Yang
17 min read
在 Ubuntu 的 NIS 環境底下設定 iptables
nis

在 Ubuntu 的 NIS 環境底下設定 iptables

不論是實體機器或是 VPS (Virtual Private Server),當手上需要管理的 server 愈來愈多的時候,我們都不希望逐一在 server 上面做設定,於是就有了中央管理的服務出現,NIS (Network Information Service) 就是其中一種。 NIS 的安全性 NIS 比起其他中央管理帳號的服務,安裝與設定是相對簡單,但是安全性來說是相當低的。 Anyone who can get access to the daemon can dump

  • Chen-Ming Yang
    Chen-Ming Yang
6 min read
routing

前後端 Routing 比較

這次改一下寫文章的方式,把碎碎念的部份放到最後,直接先紀錄一下這篇想整理的東西 做網站的時候,除非是單頁靜態網頁,像是在 github.io 上放單頁履歷以外,大部份都有點擊某個連結然後更換顯示內容的需求,而這邊對於新手來說,第一關應該就是 routing Routing 如果有找過關於 NodeJS 資料的人應該對於 express 不陌生,在關於 express 的範例程式中,當你看完 http 模組之後緊接著就會是 routing 的教學 var express = require('express'); // 引入 express

  • Chen-Ming Yang
    Chen-Ming Yang
5 min read
HelloWorld

新手與牠們的產地

楔子 說來有點小丟臉,都畢業了還在新手村。 現在人在中研院當研發替代役,從開始工作到現在兩個多月以來,其實常常很後悔大學時期沒學好,不務正業到處做其他事情,所以乾脆藉這個機會記錄一下,在外面工作可能會遇到的雷(當然不是指遇到慣老闆的那種)(那種的私下聊)。 先稍微紀錄一下目前碰過的東西。 第一個月 - MIS 一個實驗室想當然爾會有很多 server,想當然而會有很多 user,想當然爾會有人用 Windows / macOS / Linux,想當然爾會有專門跑運算的跟專門存資料的 server,想當然爾會有 public / private network 的問題,想當然爾還會有很多開發環境的問題。 所以我花了一個月稍微研究了: NIS(

  • Chen-Ming Yang
    Chen-Ming Yang
3 min read