爬蟲(crawler)是什麼? 爬蟲的運作原理

最近常常看到 fb 廣告

開課教別人寫爬蟲

然後自己做金融的服務

能夠用別人的資料來做自己的金融模型

當然是很好

但什麼是爬蟲?

爬蟲是一種程式

簡單說就是瀏覽器

只是一般瀏覽器需要把網頁敘述(hml)變成網頁內容 (文字/圖片)

爬蟲不需要顯示內容

只要把需要的內容解析出來

 

例如Google就有爬蟲

會來爬你的網頁

然後索引你的內容

提供大家去搜尋引擎查詢

 

那金融的爬蟲

主要是去各大揭露商品報價的網站

爬取交易的數值

存在自己的資料庫中

再用自己的算式去算各種數據指標

 

聽起來爬蟲很厲害

只要會寫爬蟲程式 就可以上網爬各式各樣的資料

然後自己存起來

分析分析 又可以拿出去賣錢

真棒

那寫爬蟲爬人家的資料 都不會有什麼問題嗎?

問題一堆

 

著作權/版權問題

如果你爬的是人家彙整過的資料

理論上都有這類的問題

要是被發現你未經許可 爬人家的資料

重製販售

對方”應該”可以採取法律行動

不是沒被告 只是人家還在養大魚

這類的法律問題我是外行人

我們請方道樞律師特別撰文說明XD

 

授權/經營問題

既然沒有得到別人的授權

人家就算不告你 也可以整你

只要人家天天改格式 或是知道爬蟲的IP/行為

把你的爬蟲封了

你就沒搞頭了

看過這個介面吧?

這個就是 Google 做來檔機器人(爬蟲)的工具

Google Recaptcha

爬蟲可不會去點 “我不是機器人”

就算去點

Google Recaptcha 也會出現機器人難以辨識的圖片

跟 Google 鬥智簡直找死

一開始你的資料源可能讓你爬

把你養大

等你大了 賺錢了

再來收割 斷掉你的資料

等你無法跟客戶交代 再出手跟你要錢

 

爬蟲不是永遠可靠有效/有用

如同上述問題

也許資料源不是故意要封鎖你

他只是改版一下

你的爬蟲可能就因為網頁的格式變更

得重新寫

有可能是小改

但也有可能是大改

如果你沒有自己的團隊

是很難持續維護 或是應付這種突發情況

 

我手上有個服務叫做 seo-rank.tw

是拿來爬關鍵字排名的

之前也是爬 Google 的搜尋結果

通常都是等客戶反應沒排名

我才知道爬蟲掛了

每當掛了

我就得熬夜修改程式

因為客戶不能一天沒有排名

我自己是工程師 所以我能自己改

如果你的服務有爬蟲 又沒有工程師

那你就死定了

後來我發現網路上有資訊源

而且是花錢就可以解決

我直接就串對方API

把爬蟲都收了

因為維護爬蟲實在是太累了

 

結論

爬蟲對初期創業來說可能是個機會

但如果有一定的規模 有賺錢後

最好還是弄個付費可靠的資料源

不然這種生意是不會長久的

 

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

這個網站採用 Akismet 服務減少垃圾留言。進一步瞭解 Akismet 如何處理網站訪客的留言資料