Chen-Ming Yang

Chen-Ming Yang

6 posts
Facebook
Python general crawler writeup
Python

Python general crawler writeup

這篇文章是紀錄我第一個爬蟲任務的 writeup。在之前我只能說自己對爬蟲有點概念,但開始做這個比較 general crawling 的任務之後,對於學習爬蟲的過程有了一點脈絡。這次被要求的爬蟲內容為取得上千個網站中的所有圖片、影片與文件,但為了減少我們儲存資料的容量,我們設計成圖片與影片只抓取其來源,而文件因功能需求抓取完整檔案。

資料分析入門:具有影響力的文章關鍵字
data

資料分析入門:具有影響力的文章關鍵字

這次的分享主要是針對入門的文本分析步驟,雖然沒有太多技術細節,但至少可以讓沒有接觸過這一塊的人了解可能的作法與需要的工具 資料分析可以簡單的分為三大步驟: 收集資料 過濾資料 顯示資料 收集資料 爬蟲(Crawling)是一種收集資料的手段,針對網站可以分析 html 架構之後再透過相關 http client 的 library 撰寫程式取得資料,像是 python 的 requests 與 BeautifulSoup 的搭配使用 另外如果該網站或是該服務有提供 API,那我們只要透過 API

在 Ubuntu 的 NIS 環境底下設定 iptables
nis

在 Ubuntu 的 NIS 環境底下設定 iptables

不論是實體機器或是 VPS (Virtual Private Server),當手上需要管理的 server 愈來愈多的時候,我們都不希望逐一在 server 上面做設定,於是就有了中央管理的服務出現,NIS (Network Information Service) 就是其中一種。 NIS 的安全性 NIS 比起其他中央管理帳號的服務,安裝與設定是相對簡單,但是安全性來說是相當低的。 Anyone who can get access to the

routing

前後端 Routing 比較

這次改一下寫文章的方式,把碎碎念的部份放到最後,直接先紀錄一下這篇想整理的東西 做網站的時候,除非是單頁靜態網頁,像是在 github.io 上放單頁履歷以外,大部份都有點擊某個連結然後更換顯示內容的需求,而這邊對於新手來說,第一關應該就是 routing Routing 如果有找過關於 NodeJS 資料的人應該對於 express 不陌生,在關於 express 的範例程式中,當你看完 http 模組之後緊接著就會是 routing 的教學 var express = require('express'); // 引入 express var app = express(); // 在 '/' 路徑底下要做的事情 app.get('/',

HelloWorld

新手與牠們的產地

楔子 說來有點小丟臉,都畢業了還在新手村。 現在人在中研院當研發替代役,從開始工作到現在兩個多月以來,其實常常很後悔大學時期沒學好,不務正業到處做其他事情,所以乾脆藉這個機會記錄一下,在外面工作可能會遇到的雷(當然不是指遇到慣老闆的那種)(那種的私下聊)。 先稍微紀錄一下目前碰過的東西。 第一個月 - MIS 一個實驗室想當然爾會有很多 server,想當然而會有很多 user,想當然爾會有人用 Windows / macOS / Linux,想當然爾會有專門跑運算的跟專門存資料的 server,想當然爾會有 public / private network 的問題,想當然爾還會有很多開發環境的問題。 所以我花了一個月稍微研究了: NIS(集中控管使用者帳號的系統) Samba(跨系統溝通的軟體) LAMP(Linux + Apache 2 + MySQL + PHP) R studio