LCCNET 聯成電腦

m_nav_line m_nav_line

聯成電腦分享:網路爬蟲要學什麼程式語言?從哪開始練基礎功?

icon_fb icon_twitter icon_google
article_main_img

圖片來源:Pexels

 

 

 

文、意如老師

 

 

 

網路爬蟲要學什麼程式語言呢? PHP?JAVA?Python?還是其他程式語言?

這是目前聽到最多人問的問題了,所以今天就來探討一下這個主題吧!

 

快速介紹一下網路爬蟲,簡單的說網路爬蟲其實就是去網路上抓取網頁上的任何資料,蒐集資料。更詳細說明請參考上一篇文章:聯成電腦分享:什麼是網路爬蟲?為什麼每一個工程師都要會?

 

 

 

圖片來源:Pixabay

 

 

 

那抓取網頁上的資料(爬蟲)要做什麼?

 

把網路上的資料抓回來後再經過我們整理成為有用的資訊,存在我們自己的資料庫,就可以任意使用了。

 

 

圖片來源:Pixabay

 

 

 

那爬蟲需要會什麼程式語言呢?

 

其實呢學什麼程式語言並不重要,因為每一種語言幾乎都可以做到任何你想要的功能,對工程師來說程式語言只是一個工具,差別只是在使用起來方不方便,執行的快不快速跟好不好維護。

 

以程式語言像是php、java、python、node.js等選擇任一個語言都能做到爬蟲(因為現在的套件)非常多,這邊的套件指的是人家做好的功能,我們只要把套件引入我們的專案內,再傳入幾個參數就可以使用了。因此你可以使用你熟悉的語言玩玩爬蟲。

 

 

圖片來源:Pixabay

 

 

 

但如果要以快速上手的語言,這邊就比較推薦python或 node.js 這兩種語言都只需要幾行程式碼跟幾個簡單的語法就可以把資料爬回來了。

 

 

 

網路爬蟲要從哪裡開始學?先練基礎功

 

網路爬蟲主要是抓網頁上面的資料,所以當然一定是從最基礎網頁語法HTML開始學起,例如我們要抓取網頁的標題,這時候在下語法時就要去抓名為<title> </title>標籤內的文字。

 

 

圖片來源:Pixabay

 

 

 

為了我們爬蟲可以更順利抓到更多想要的資料,除了標籤HTML外,基本的css和javascript也需要略懂略懂。

例如我們要抓的資訊也有可能是包在css樣式中的文字,像是<span class="first_word">門市資訊</span>等等…

 

所以想要爬蟲第一步建議先把網頁語法學好,等基礎功都練熟站穩腳步後再用你習慣的語言(python或java或php或node.js)等其他程式語言把網頁中的資料爬回來。

 

 

圖片來源:Pixabay

 

 

 

最後把資料抓回來後集中整理,通通存入我們自己的資料庫中,結構化成我們可較好閱讀的資訊。

 

 

 

 

 

 

 

 

FB粉絲團:https://www.facebook.com/lccnetzone
YouTube頻道:https://www.youtube.com/user/LccnetTaiwan

痞客邦Blog:http://lccnetvip.pixnet.net/blog

本網站使用相關網站技術以確保使用者獲得最佳體驗,通過使用我們的網站,您確認並同意本網站的隱私權政策。欲了解詳情,請參閱 隱私權政策