三级在线观看视频,国产视频一区在线,日本最新一区二区三区视频观看

錦州市廣廈電腦維修|上門維修電腦|上門做系統|0416-3905144熱誠服務,錦州廣廈維修電腦,公司IT外包服務

		設為首頁
		收藏本站

首頁

公司介紹

服務項目

服務報價

維修流程

IT外包服務

服務器維護

技術文章

常見故障

錦州市廣廈電腦維修|上門維修電腦|上門做系統|0416-3905144熱誠服務 → 技術文章

淺談Python網絡爬蟲

作者: 佚名日期:2017-05-03 08:32:36 來源: 本站整理

一相關背景
網絡爬蟲(Web Spider)又稱網絡蜘蛛、網絡機器人，是一段用來自動化采集網站數據的程序。如果把互聯網比喻成一個蜘蛛網，那么Spider就是在網上爬來爬去的蜘蛛。網絡爬蟲不僅能夠為搜索引擎采集網絡信息，而且還可以作為定向信息采集器，定向采集某些網站下的特定信息，如：汽車票價，招聘信息，租房信息，微博評論等。
二應用場景

圖1 應用場景
爬蟲技術在科學研究、Web安全、產品研發、輿情監控等領域可以做很多事情。如：在數據挖掘、機器學習、圖像處理等科學研究領域，如果沒有數據，則可以通過爬蟲從網上抓取；在Web安全方面，使用爬蟲可以對網站是否存在某一漏洞進行批量驗證、利用；在產品研發方面，可以采集各個商城物品價格，為用戶提供市場最低價；在輿情監控方面，可以抓取、分析新浪微博的數據，從而識別出某用戶是否為水軍。
三本文目的
本文簡要介紹對于定向信息采集所需了解基本知識和相關技術，以及python中與此相關的庫。同時提供對與數據抓取有關庫的封裝實現，目的是減少不必要的配置，便于使用，目前僅包含對urllib2, requests, mechanize的封裝。地址：https://github.com/xinhaojing/Crawler
四運行流程
對于定向信息的爬取，爬蟲主要包括數據抓取、數據解析、數據入庫等操作流程。其中:
（1）數據抓�。喊l送構造的HTTP請求，獲得包含所需數據的HTTP響應；
（2）數據解析：對HTTP響應的原始數據進行分析、清洗以提取出需要的數據；
（3）數據入庫：將數據進一步保存到數據庫（或文本文件），構建知識庫。

圖2.1 基本運行流程

圖2.2 詳細運行流程
五相關技術
爬蟲的相關技術包括：
（1）數據抓�。毫私釮TTP請求和響應中各字段的含義；了解相關的網絡分析工具，主要用于分析網絡流量，如：burpsuit等。一般情況，使用瀏覽器的開發者模式即可；
（2）數據解析：了解HTML結構、JSON和XML數據格式，CSS選擇器、Xpath路徑表達式、正則表達式等，目的是從響應中提取出所需的數據；
（3）數據入庫：MySQL，SQLite、Redis等數據庫，便于數據的存儲；

圖3 相關技術

以上是學習爬蟲的基本要求，在實際的應用中，也應考慮如何使用多線程提高效率、如何做任務調度、如何應對反爬蟲，如何實現分布式爬蟲等等。本文介紹的比較有限，僅供參考。
六 python相關庫
在爬蟲實現上，除了scrapy框架之外，python有許多與此相關的庫可供使用。其中，在數據抓取方面包括： urllib2（urllib3）、requests、mechanize、selenium、splinter；在數據解析方包括：lxml、beautifulsoup4、re、pyquery。
對于數據抓取，涉及的過程主要是模擬瀏覽器向服務器發送構造好的http請求，常見類型有：get/post。其中，urllib2（urllib3）、requests、mechanize用來獲取URL對應的原始響應內容；而selenium、splinter通過加載瀏覽器驅動，獲取瀏覽器渲染之后的響應內容，模擬程度更高。
具體選擇哪種類庫，應根據實際需求決定，如考慮效率、對方的反爬蟲手段等。通常，能使用urllib2（urllib3）、requests、mechanize等解決的盡量不用selenium、splinter，因為后者因需要加載瀏覽器而導致效率較低。
對于數據解析，主要是從響應頁面里提取所需的數據，常用方法有：xpath路徑表達式、CSS選擇器、正則表達式等。其中，xpath路徑表達式、CSS選擇器主要用于提取結構化的數據，而正則表達式主要用于提取非結構化的數據。相應的庫有lxml、beautifulsoup4、re、pyquery。
表1 相關庫文檔

類庫
文檔
數據抓取
urllib2
https://docs.python.org/2/library/urllib2.html
requests
http://cn.python-requests.org/zh_CN/latest
mechanize
https://mechanize.readthedocs.io/en/latest/
splinter
http://splinter.readthedocs.io/en/latest/
selenium
https://selenium-python.readthedocs.io/
數據解析
lxml
http://lxml.de/
beautifulsoup4
https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html http://cuiqingcai.com/1319.html
re
http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html
pyquery
https://pythonhosted.org/pyquery/

七.相關介紹
1數據抓取
（1）urllib2
urllib2是python自帶的一個訪問網頁及本地文件的庫，通常需要與urllib一起使用。因為urllib提供了urlencode方法用來對發送的數據進行編碼，而urllib2沒有對應的方法。
以下是對urllib2簡易封裝的說明，主要是將相關的特性集中在了一個類函數里面，避免一些繁瑣的配置工作。

圖4 urllib2封裝說明
（2）requests和mechanize
requests是Python的第三方庫，基于urllib，但比urllib更加方便，接口簡單。其特點包括，關于http請求：支持自定義請求頭，支持設置代理、支持重定向、支持保持會話[request.Session()]、支持超時設置、對post數據自動urlencode；關于http響應：可直接從響應中獲得詳細的數據，無需人工配置，包括：狀態碼、自動解碼的響應內容、響應頭中的各個字段；還內置JSON解碼器。
mechanize是對urllib2部分功能的替換，能夠更好的模擬瀏覽器行為，在web訪問控制方面做得很全面。其特點包括：支持cookie設置、代理設置、重定向設置、簡單的表單填寫、瀏覽器歷史記錄和重載、referer頭的添加（可選）、自動遵守robots.txt、自動處理HTTP-EQUIV和刷新等。
對requests和mechanize簡易封裝后的接口與urllib2一樣，也是將相關特性集中在了一個類函數里面，這里不在重復說明，可參考所給代碼。
（4）splinter和selenium
selenium(python)和splinter可以很好的模擬瀏覽器行為，二者通過加載瀏覽器驅動工作。在采集信息方面，降低了分析網絡請求的麻煩,一般只需要知道數據頁面對應的URL即可。由于要加載瀏覽器，所以效率方面相對較低。
默認情況下，優先使用的是Firefox瀏覽器。這里列出chrome和pantomjs（無頭瀏覽器）驅動的下載地址，方便查找。
chrome和pantomjs驅動地址:
chrome : http://chromedriver.storage.googleapis.com/index.html?path=2.9/
pantomjs : http://phantomjs.org/download.html
2 數據解析
對于數據解析，可用的庫有lxml、beautifulsoup4、re、pyquery。其中，beautifulsoup4比較常用些。除了這些庫的使用，可了解一下xpath路徑表達式、CSS選擇器、正則表達式的語法，便于從網頁中提取數據。其中，chrome瀏覽器自帶生成Xpath的功能。

圖5 chrome查看元素的xpath
如果能夠基于網絡分析，抓取到所需數據對應的頁面，接下來，從頁面中提取數據的工作就相對明確很多。具體的使用方法可參考文檔，這里不在詳細介紹。
八反爬蟲
1. 基本的反爬蟲手段，主要是檢測請求頭中的字段，比如：User-Agent、referer等。針對這種情況，只要在請求中帶上對應的字段即可。所構造http請求的各個字段最好跟在瀏覽器中發送的完全一樣，但也不是必須。
2. 基于用戶行為的反爬蟲手段，主要是在后臺對訪問的IP（或User-Agent）進行統計，當超過某一設定的閾值，給予封鎖。針對這種情況，可通過使用代理服務器解決，每隔幾次請求，切換一下所用代理的IP地址（或通過使用User-Agent列表解決，每次從列表里隨機選擇一個使用）。這樣的反爬蟲方法可能會誤傷用戶。
3. 希望抓取的數據是如果通過ajax請求得到的，假如通過網絡分析能夠找到該ajax請求，也能分析出請求所需的具體參數，則直接模擬相應的http請求，即可從響應中得到對應的數據。這種情況，跟普通的請求沒有什么區別。
4. 基于JavaScript的反爬蟲手段，主要是在響應數據頁面之前，先返回一段帶有JavaScript代碼的頁面，用于驗證訪問者有無JavaScript的執行環境，以確定使用的是不是瀏覽器。
通常情況下，這段JS代碼執行后，會發送一個帶參數key的請求，后臺通過判斷key的值來決定是響應真實的頁面，還是響應偽造或錯誤的頁面。因為key參數是動態生成的，每次都不一樣，難以分析出其生成方法，使得無法構造對應的http請求。
比如網站http://www.kuaidaili.com/，使用就是這種方式，具體可參見https://www.v2ex.com/t/269337。
在首次訪問網站時，響應的JS內容會發送帶yundun參數的請求，而yundun參數每次都不一樣。

圖6動態參數yundun
目前測試時，該JavaScript代碼執行后，發送的請求不再帶有yundun參數，而是動態生成一個cookie，在隨后的請求中帶上該cookie，作用類似于yundun參數。

圖7 動態cookie
針對這樣的反爬蟲方法，爬蟲方面需要能夠解析執行JavaScript，具體的方法可使用selenium或splinter,通過加載瀏覽器來實現。

熱門文章

機械革命S1 PRO－02 開機不顯示黑...

聯想ThinkPad NM-C641上電掉電點不...

三星一體激光打印機SCX－4521F維修...

通過串口命令查看EMMC擦寫次數和判...

IIS 8 開啟 GZIP壓縮來減少網絡請求...

索尼kd-49x7500e背光一半暗且閃爍 ...

圖解Windows 7系統快速共享打印機的...

報修電話：13840665804 QQ：174984393 (聯系人:毛先生)
E-Mail：174984393@qq.com
維修中心地址：錦州廣廈電腦城
ICP備案/許可證號：遼ICP備2023002984號-1
上門服務區域: 遼寧錦州市區
主要業務：修電腦,電腦修理,電腦維護,上門維修電腦,黑屏藍屏死機故障排除,無線上網設置,IT服務外包,局域網組建,ADSL共享上網,路由器設置,數據恢復,密碼破解,光盤刻錄制作等服務

技術支持:微軟等