A. 如何正確利用網路爬蟲
基本步驟1、發現可讀且可訪問的URL。
2、瀏覽種子或URL列表以識別新鏈接並將它們添加到列表中。
3、索引所有已識別的鏈接。
4、使所有索引鏈接保持最新。
很多網站都具有反爬蟲策略,常見的方式有:驗證碼、登陸、限制IP等。
1、驗證碼。可以利用打碼平台破解(如果硬上的話用opencv或keras訓練圖);
2、登陸。利用requests的post或者selenium模擬用戶進行模擬登陸;
3、限制IP。使用代理IP,因免費IP效果非常差,所以建議選擇收費代理IP。