Python爬蟲項目教程檢視原始碼討論檢視歷史
《Python爬蟲項目教程》,編者黃銳軍,責編初美呈,定價59.80,ISBN號9787115569998,出版社人民郵電出版社,版印次1版 1次,開本16開,裝幀*裝,頁數260,出版時間2021-11,印刷時間2021-11。
人民郵電出版社,1953年10月成立,隸屬於中國工信出版傳媒集團,是工業和信息化部主管的大型專業出版社[1]。建社以來,人民郵電出版社圍繞「立足工信事業,面向現代社會,傳播科學知識,引領美好生活」的出版宗旨,已發展成為集圖書、期刊、音像電子及數字出版於一體的綜合性出版大社[2]。
內容簡介
本書以Python語言為基礎,介紹了爬蟲的基礎知識。本書包括6個實戰項目,分別為爬取外匯網站數據、爬取名言網站數據、爬取電影網站數據、爬取圖書網站數據、爬取商城網站數據、爬取景區網站數據。本書通過這些項目講解了Python的Web訪問技術、BeautifulSoup的數據分析與提取技術、深度優先與廣度優先順序爬取技術、多線程網頁爬取技術、scrapy分布式爬取框架技術、selenium爬蟲程序技術、AWS中的DynamoDB數據庫的NoSQL存儲技術等。本書每個項目都遵循由淺入深的學習規律,採取理論與實踐相結合的方式來引導讀者完成實戰。
本書可作為計算機軟件技術專業及其相關專業的程序設計課程教材。
目錄
項目1 爬取外匯網站數據
1.1 項目任務
1.2 搭建爬蟲程序開發環境
1.2.1 理解爬蟲程序
1.2.2 搭建開發環境
1.3 使用Flask創建Web網站
1.3.1 安裝Flask框架
1.3.2 創建模擬外匯網站
1.3.3 編寫客戶端程序並獲取網站的HTML代碼
1.4 使用GET方法訪問Web網站
1.4.1 客戶端使用GET方法發送數據
1.4.2 服務器端使用GET方法獲取數據
1.5 使用POST方法訪問Web網站
1.5.1 客戶端使用POST方法發送數據
1.5.2 服務器端使用POST方法獲取數據
1.5.3 混合使用GET與POST方法
1.6 使用正則表達式匹配數據
1.6.1 使用正則表達式匹配字符串
1.6.2 使用正則表達式爬取數據
1.7 綜合項目 爬取模擬外匯網站數據
1.7.1 創建模擬外匯網站
1.7.2 解析網站的HTML代碼
1.7.3 設計存儲數據庫
1.7.4 編寫爬蟲程序
1.7.5 執行爬蟲程序
1.8 實戰項目 爬取實際外匯網站數據
1.8.1 解析網站的HTML代碼
1.8.2 爬取網站外匯匯率數據
1.8.3 設計存儲數據庫
1.8.4 編寫爬蟲程序
1.8.5 執行爬蟲程序
項目總結
練習1
項目2 爬取名言網站數據
2.1 項目任務
2.2 使用BeautifulSoup裝載HTML文檔
2.2.1 創建模擬名言網站
2.2.2 安裝BeautifulSoup程序包
2.2.3 裝載HTML文檔
2.3 使用BeautifulSoup查找HTML元素
2.3.1 使用find()函數查找
2.3.2 查找元素屬性與文本
2.3.3 使用find_all()函數查找
2.3.4 使用高級查找
2.4 使用BeautifulSoup遍歷文檔元素
2.4.1 獲取元素節點的父節點
2.4.2 獲取元素節點的直接子節點
2.4.3 獲取元素節點的所有子孫節點
2.4.4 獲取元素節點的兄弟節點
2.5 BeautifulSoup支持使用CSS語法進行查找
……
項目3 爬取電影網站數據
項目4 爬取圖書網站數據
項目5 爬取商城網站數據
項目6 爬取景區網站數據
參考文獻
- ↑ 我國出版社的等級劃分和分類標準,知網出書,2021-03-01
- ↑ 人民郵電出版社簡介,人民郵電出版社