求真百科歡迎當事人提供第一手真實資料,洗刷冤屈,終結網路霸凌。

爬蟲檢視原始碼討論檢視歷史

事實揭露 揭密真相
前往: 導覽搜尋
爬蟲

中文名: 網絡爬蟲

外文名: web crawler

別 稱: 網絡蜘蛛

目 的: 按要求獲取萬維網信息

作 用 :抓取網站上的信息

算 法:網絡拓撲、基於網頁內容和基於
用戶訪問行為三種算法

爬蟲:(又稱為網頁蜘蛛網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。[1]

爬蟲的概念

爬蟲更官方點的名字叫數據採集,英文一般稱作spider,就是通過編程來全自動的從互聯網上採集數據。

比如說搜索引擎就是一種爬蟲。 爬蟲需要做的就是模擬正常的網絡請求,比如你在網站上點擊一個網址,就是一次網絡請求。

爬蟲的作用

現如今大數據時代已經到來,網絡爬蟲技術成為這個時代不可或缺的一部分,企業需要數據來分析用戶行為,來分析自己產品的不足之處,來分析競爭對手的信息等等,但是這些的首要條件就是數據的採集。 這其中使用爬蟲較為有名的有今日頭條等公司。[2]

爬蟲的分類

根據被爬網站的數量的不同,我們把爬蟲分為:

通用爬蟲 :通常指搜索引擎的爬蟲(https://www.baidu.com)

聚焦爬蟲 :針對特定網站的爬蟲

爬蟲的流程

爬蟲的工作流程(重點)

總結: 搜索引擎流程 與 聚焦爬蟲流程的區別: 搜索引擎流程:

爬取範圍: 整個網絡, 見到URL就爬保存的數據: 保存的是原始的HTML預處理: 主要是 分詞, 排名

聚焦爬蟲流程

爬取範圍: 特定的URL, 只有有需要的數據的URL,才爬取保存的數據: 保存的是需要的數據.[3]

爬蟲的本質

爬蟲的本質就是自動化的去模擬正常人類發起的網絡請求,然後獲取網絡請求所返回的數據。 跟我們人手動去點擊一個連接,訪問一個網頁獲取數據,並沒有什麼本質的區別。

爬蟲的難點

爬蟲的難點主要為兩個方向:

數據的獲取

一般來說我們想要抓取的網站是不希望我們去抓取他的數據的,那麼這些網站就會做一些反爬蟲的措施,來讓我們無法去他的網站上抓取數據。所以我們也要做相應的措施去繞過這些反爬蟲措施。

抓取數據的速度

我們抓取的目標的數據量,有時是非常龐大的,甚至幾千萬上億的數據量,而有些甚至會要求實時的更新,所以抓取的速度也非常重要。我們一般會使用並發和分布式來解決速度的問題。

視頻

Python基礎教程:零基礎入門爬蟲

六分鐘了解爬蟲項目的大概過程

參考資料