索取 python 爬蟲文章

2個回答

匿名使用者2024-01-28

python中其實有很多爬蟲庫，比如常見的urllib、requests、bs4、lxml等，如果你是初次初學者爬蟲，可以了解一下requests和bs4（beautifulsoup）這兩個庫，它們比較簡單易學，requests是用來請求頁面的，beautifulsoup是用來解析頁面的，我將使用這兩個庫作為基礎。簡單介紹python如何抓取網頁靜態資料和網頁動態資料，實驗環境win10+，主要內容如下：

Python 從網頁中抓取靜態資料。

開啟網頁的原始碼，對應的網頁結構如下，非常簡單，所有字段內容都可以直接找到：

2.對於上面的網頁結構，我們可以寫相關的**來抓取網頁資料，很簡單，先根據URL位址，使用請求請求頁面，然後使用beautifulsoup解析資料（根據標籤和屬性定位），如下：

程式執行截圖如下，資料已抓取成功：

Python 抓取網頁動態資料。

很多情況下，網頁資料是動態載入的，直接抓取網頁是不可能提取任何資料的，所以需要抓取並分析報文，找到動態載入的資料，一般是json檔案（當然也可能是其他型別的檔案，比如xml、等等），然後請求解析這個json檔案，就可以得到我們需要的資料了，這裡是爬取人人貸款上分散的標準資料的例子：

1.這裡我們假設我們抓取的資料如下，主要包括五個欄位的年利率、貸款標題、期限、金額和進度：

2.按 F12 調出開發者工具，依次點選“Network”->xhr“，F5重新整理頁面，可以找到動態載入的JSON檔案，具體資訊如下：

3.然後，對於上面的抓包分析，我們可以編寫相關的**來抓取資料，基本思路類似於上面的靜態網頁，先使用請求請求json，然後使用python自己的json包對資料進行解析，如下所示：

程式操作截圖如下，資料已獲取成功：

至此，我們已經完成了使用 python 對網頁資料進行抓取。總的來說，整個過程非常簡單，對於初學者來說，請求和美湯，非常容易學習，容易掌握，你可以學習使用它，以後熟悉之後就可以學習scrapy爬蟲框架了，這樣可以顯著提高開發效率，非常好，當然，如果網頁裡有加密，驗證碼等，這需要自己琢磨，研究對策，網上也有相關的教程和資訊，有興趣的可以搜尋一下，希望以上內容對大家有所幫助，也歡迎大家評論留言。
匿名使用者2024-01-27

我個人認為，對於新手來說，學習python用以下4個庫抓取網頁就足夠了：（第四個真的不行，當然，在某些特殊情況下可能做不到）。

2.解析網頁：熟悉jquery的人可以使用pyquery

3.使用請求提交各種型別的請求，支援重定向、cookie 等。

4.使用 Selenium，您可以在瀏覽器中模擬類似使用者的操作，並處理由 JS 動態生成的網頁。

這個庫和幾個庫都有自己的功能。一起，它可以完成抓取各種網頁並對其進行分析的功能。具體用法請參考其官方網站手冊（上面鏈結）。

做事就是要對狀態進行驅動，如果你沒有什麼特別的要抓，新手學習可以從這個級別開始**。

目前已經更新到第五級了，通過前四級後，應該已經掌握了這些庫的基本操作。

實在打不通，下面我們來看一下解決方法，第四關會用到並行程式設計固定。（串列埠程式設計完成第四關會很費時），第四、第五關只是沒問題，解決方案還沒發布......

學完這些基礎知識，學習 scrapy 這個強大的爬蟲框架會比較流暢。這是它的中文介紹。