導航:首頁 > 網路安全 > 如何看待網路爬蟲的盜亦有道

如何看待網路爬蟲的盜亦有道

發布時間:2022-03-02 00:58:38

『壹』 現在的網路爬蟲的研究成果和存在的問題有哪些

網路爬蟲是Spider(或Robots、Crawler)等詞的意譯,是一種高效的信息抓取工具,它集成了搜索引擎技術,並通過技術手段進行優化,用以從互聯網搜索、抓取並保存任何通過HTML(超文本標記語言)進行標准化的網頁信息。

其作用機理是:發送請求給互聯網特定站點,在建立連接後與該站點交互,獲取HTML格式的信息,隨後轉移到下一個站點,並重復以上流程。通過這種自動化的工作機制,將目標數據保存在本地數據中,以供使用。網路爬蟲在訪問一個超文本鏈接時,可以從HTML標簽中自動獲取指向其他網頁的地址信息,因而可以自動實現高效、標准化的信息獲取。

隨著互聯網在人類經濟社會中的應用日益廣泛,其所涵蓋的信息規模呈指數增長,信息的形式和分布具有多樣化、全球化特徵,傳統搜索引擎技術已經無法滿足日益精細化、專業化的信息獲取和加工需求,正面臨著巨大的挑戰。網路爬蟲自誕生以來,就發展迅猛,並成為信息技術領域的主要研究熱點。當前,主流的網路爬蟲搜索策略有如下幾種。

>>>>
深度優先搜索策略

早期的爬蟲開發採用較多的搜索策略是以深度優先的,即在一個HTML文件中,挑選其中一個超鏈接標簽進行深度搜索,直至遍歷這條超鏈接到最底層時,由邏輯運算判斷本層搜索結束,隨後退出本層循環,返回上層循環並開始搜索其他的超鏈接標簽,直至初始文件內的超鏈接被遍歷。

深度優先搜索策略的優點是可以將一個Web站點的所有信息全部搜索,對嵌套較深的文檔集尤其適用;而缺點是在數據結構日益復雜的情況下,站點的縱向層級會無限增加且不同層級之間會出現交叉引用,會發生無限循環的情況,只有強行關閉程序才能退出遍歷,而得到的信息由於大量的重復和冗餘,質量很難保證。

>>>>
寬度優先搜索策略

與深度優先搜索策略相對應的是寬度優先搜索策略,其作用機理是從頂層向底層開始循環,先就一級頁面中的所有超鏈接進行搜索,完成一級頁面遍歷後再開始二級頁面的搜索循環,直到底層為止。當某一層中的所有超鏈接都被選擇過,才會基於該層信息檢索過程中所獲得的下一級超鏈接(並將其作為種子)開始新的一輪檢索,優先處理淺層的鏈接。

這種模式的一個優點是:無論搜索對象的縱向結構層級有多麼復雜,都會極大程度上避免死循環;另一個優勢則在於,它擁有特定的演算法,可以找到兩個HTML文件間最短的路徑。一般來講,我們期望爬蟲所具有的大多數功能目前均可以採用寬度優先搜索策略較容易的實現,所以它被認為是最優的。

但其缺點是:由於大量時間被耗費,寬度優先搜索策略則不太適用於要遍歷特定站點和HTML文件深層嵌套的情況。

>>>>
聚焦搜索策略

與深度優先和寬度優先不同,聚焦搜索策略是根據「匹配優先原則」對數據源進行訪問,基於特定的匹配演算法,主動選擇與需求主題相關的數據文檔,並限定優先順序,據以指導後續的數據抓取。

這類聚焦爬蟲針對所訪問任何頁面中的超鏈接都會判定一個優先順序評分,根據評分情況將該鏈接插入循環隊列,此策略能夠幫助爬蟲優先跟蹤潛在匹配程度更高的頁面,直至獲取足夠數量和質量的目標信息。不難看出,聚焦爬蟲搜索策略主要在於優先順序評分模型的設計,亦即如何區分鏈接的價值,不同的評分模型針對同一鏈接會給出不同的評分,也就直接影響到信息搜集的效率和質量。

同樣機制下,針對超鏈接標簽的評分模型自然可以擴展到針對HTML頁面的評價中,因為每一個網頁都是由大量超鏈接標簽所構成的,一般看來,鏈接價值越高,其所在頁面的價值也越高,這就為搜索引擎的搜索專業化和應用廣泛化提供了理論和技術支撐。當前,常見的聚焦搜索策略包括基於「鞏固學習」和「語境圖」兩種。

從應用程度來看,當前國內主流搜索平台主要採用的是寬度優先搜索策略,主要是考慮到國內網路系統中信息的縱向價值密度較低,而橫向價值密度較高。但是這樣會明顯地遺漏到一些引用率較小的網路文檔,並且寬度優先搜索策略的橫向價值富集效應,會導致這些鏈接量少的信息源被無限制的忽略下去。

而在此基礎上補充採用線性搜索策略則會緩解這種狀況,不斷引入更新的數據信息到已有的數據倉庫中,通過多輪的價值判斷去決定是否繼續保存該信息,而不是「簡單粗暴」地遺漏下去,將新的信息阻滯在密閉循環之外。

>>>>
網頁數據動態化

傳統的網路爬蟲技術主要局限於對靜態頁面信息的抓取,模式相對單一,而近年來,隨著Web2.0/AJAX等技術成為主流,動態頁面由於具有強大的交互能力,成為網路信息傳播的主流,並已取代了靜態頁面成為了主流。AJAX採用了JavaScript驅動的非同步(非同步)請求和響應機制,在不經過網頁整體刷新的情況下持續進行數據更新,而傳統爬蟲技術缺乏對JavaScript語義的介面和交互能力,難以觸發動態無刷新頁面的非同步調用機制並解析返回的數據內容,無法保存所需信息。

此外,諸如JQuery等封裝了JavaScript的各類前端框架會對DOM結構進行大量調整,甚至網頁上的主要動態內容均不必在首次建立請求時就以靜態標簽的形式從伺服器端發送到客戶端,而是不斷對用戶的操作進行回應並通過非同步調用的機制動態繪制出來。這種模式一方面極大地優化了用戶體驗,另一方面很大程度上減輕了伺服器的交互負擔,但卻對習慣了DOM結構(相對不變的靜態頁面)的爬蟲程序提出了巨大挑戰。

傳統爬蟲程序主要基於「協議驅動」,而在互聯網2.0時代,基於AJAX的動態交互技術環境下,爬蟲引擎必須依賴「事件驅動」才有可能獲得數據伺服器源源不斷的數據反饋。而要實現事件驅動,爬蟲程序必須解決三項技術問題:第一,JavaScript的交互分析和解釋;第二,DOM事件的處理和解釋分發;第三,動態DOM內容語義的抽取。

前嗅的ForeSpider數據採集系統全方位支持各種動態網站,大部分網站通過可視化的操作就可以獲取。對於反爬蟲機制嚴格的網站,通過ForeSpider內部的腳本語言系統,通過簡單的腳本語言,就可以輕松獲取。

>>>>
數據採集分布化

分布式爬蟲系統是在計算機集群之上運轉的爬蟲系統,集群每一個節點上運行的爬蟲程序與集中式爬蟲系統的工作原理相同,所不同的是分布式需要協調不同計算機之間的任務分工、資源分配、信息整合。分布式爬蟲系統的某一台計算機終端中植入了一個主節點,並通過它來調用本地的集中式爬蟲進行工作,在此基礎上,不同節點之間的信息交互就顯得十分重要,所以決定分布式爬蟲系統成功與否的關鍵在於能否設計和實現任務的協同。

此外,底層的硬體通信網路也十分重要。由於可以採用多節點抓取網頁,並能夠實現動態的資源分配,因此就搜索效率而言,分布式爬蟲系統遠高於集中式爬蟲系統。

經過不斷的演化,各類分布式爬蟲系統在系統構成上各具特色,工作機制與存儲結構不斷推陳出新,但主流的分布式爬蟲系統普遍運用了「主從結合」的內部構成,也就是由一個主節點通過任務分工、資源分配、信息整合來掌控其他從節點進行信息抓取。

在工作方式上,基於雲平台的廉價和高效特點,分布式爬蟲系統廣泛採用雲計算方式來降低成本,大規模降低軟硬體平台構建所需要的成本投入。在存儲方式方面,當前比較流行的是分布式信息存儲,即將文件存儲在分布式的網路系統上,這樣管理多個節點上的數據更加方便。通常情況下使用的分布式文件系統為基於Hadoop的HDFS系統。

目前市場上的可視化通用性爬蟲,大都犧牲了性能去換取簡易的可視化操作。但前嗅的ForeSpider爬蟲不是。ForeSpider採用C++編程,普通台式機日採集量超過500萬條/天,伺服器超過4000萬條/天。是市場上其他可視化爬蟲的10倍以上。同時,ForeSpider內嵌前嗅自主研發的ForeLib資料庫,免費的同時支持千萬量級以上的數據存儲。

>>>>
通用型和主題型網路爬蟲

依據採集目標的類型,網路爬蟲可以歸納為「通用型網路爬蟲」和「主題型網路爬蟲」兩種。

通用型網路爬蟲側重於採集更大的數據規模和更寬的數據范圍,並不考慮網頁採集的順序和目標網頁的主題匹配情況。在當前網路信息規模呈現指數增長的背景下,通用型網路爬蟲的使用受到信息採集速度、信息價值密度、信息專業程度的限制。

為緩解這種狀況,主題型網路爬蟲誕生了。不同於通用型網路爬蟲,主題型網路爬蟲更專注採集目標與網頁信息的匹配程度,避免無關的冗餘信息,這一篩選過程是動態的,貫穿於主題型網路爬蟲技術的整個工作流程。

目前市面上的通用性爬蟲的採集能力有限,採集能力不高,網頁結構復雜的頁面無法採集。前嗅ForeSpider爬蟲是通用型的網路爬蟲,可以採集幾乎100%的網頁,並且內部支持可視化篩選、正則表達式、腳本等多種篩選,可以100%過濾無關冗餘內容,按條件篩選內容。相對主題型爬蟲只能採集一類網站而言,通用型的爬蟲有著更強的採集范圍,更加經濟合理。

『貳』 網路爬蟲的基本原理以及作用

網路爬蟲(又被稱為網頁蜘蛛,網路機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動的抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻,自動索引,模擬程序或者蠕蟲.
網路爬蟲是一個自動提取網頁的程序,它為搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。聚焦爬蟲的工作流程較為復雜,需要根據一定的網頁分析演算法過濾與主題無關的鏈接,保留有用的鏈接並將其放入等待抓取的URL隊列。然後,它將根據一定的搜索策略從隊列中選擇下一步要抓取的網頁URL,並重復上述過程,直到達到系統的某一條件時停止。另外,所有被爬蟲抓取的網頁將會被系統存貯,進行一定的分析、過濾,並建立索引,以便之後的查詢和檢索;對於聚焦爬蟲來說,這一過程所得到的分析結果還可能對以後的抓取過程給出反饋和指導。 相對於通用網路爬蟲,聚焦爬蟲還需要解決三個主要問題: (1) 對抓取目標的描述或定義; (2) 對網頁或數據的分析與過濾; (3) 對URL的搜索策略。 抓取目標的描述和定義是決定網頁分析演算法與URL搜索策略如何制訂的基礎。而網頁分析演算法和候選URL排序演算法是決定搜索引擎所提供的服務形式和爬蟲網頁抓取行為的關鍵所在。這兩個部分的演算法又是緊密相關的。

『叄』 如何應對網路爬蟲帶來的安全風險

我們的網站上或多或少存在一些頁面涉及到網站的敏感信息不希望在搜索引擎上公開;還有一些頁面是根本沒必要被搜索引擎收錄的:比如網站的管理後台入口。對於SEOER而言有一些頁面如果被收錄後反而會影響關鍵詞著陸頁的排名,或者降低了著陸頁的轉化率,比如電子商務網站的商品評論頁。那麼我們通過什麼樣的方法可以限制搜索引擎收錄此類頁面呢?
1994年6月30日,在經過搜索引擎人員以及被搜索引擎抓取的網站站長共同討論後,正式發布了一份行業規范,即robots.txt協議。這個協議既非法律,也非命令,而是一個自律性的契約,需要各種搜索引擎自覺去遵守這個協議。這個協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
當一個網路爬蟲訪問一個站點時它會首先檢查該站點根目錄下是否存在robots.txt;如果沒有對網站的robots協議進行設置,則爬蟲會盡可能的收錄所有能夠訪問到的頁面,而如果存在該robots協議文件,爬蟲則會遵守該協議,忽略那些不希望被抓取的頁面鏈接,下面我們以http://www..com/robots.txt為例:
User-agent: Googlebot
Disallow: /
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
網路是不希望谷歌搜索引擎的Googlebot爬蟲收錄/ 、/shifen 、/homepage/ 、/cpro 目錄下以及所有/s開頭的搜索結果頁面的。
User-agent:表示爬蟲的名字
Allow:表示允許爬蟲訪問的頁面
Disallow:是指禁止爬蟲訪問的頁面
Visit-time:只有在visit-time指定的時間段里,robot才可以訪問指定的URL
Request-rate: 用來限制URL的讀取頻率
除了上述robots.txt文件之外,我們還可以針對每一個頁面,在網頁的原信息中設置該頁面是否允許被收錄:
noindex: 不索引此網頁
nofollow:不通過此網頁的鏈接索引搜索其它的網頁
none: 將忽略此網頁,等價於「noindex,nofollow」
index: 索引此網頁
follow:通過此網頁的鏈接索引搜索其它的網頁
all: 搜索引擎將索引此網頁與繼續通過此網頁的鏈接索引,等價於index,follow。
舉例 〈meta name= 「 Baispider 」 content= 「 none" /〉 是不允許網路蜘蛛索引該頁面,並且不允許爬行該頁面中的所有鏈接。
還有一種方法,就是在超級鏈接的rel屬性中填寫「nofollow」,形如 〈a rel=」nofollow」 href=」*」〉 超級鏈接 〈/a〉 ,表示搜索引擎不要跟蹤鏈接。
但是所有上述方法都是基於Robot的自律性協議,並非強制執行的法律法規。如果遇到不遵守該協議的網路爬蟲瘋狂的抓取網站頁面並對網站性能產生了嚴重影響,更為有效的方使用入侵檢測系統(IDS)入侵防護系統( IPS )網路設備。

『肆』 網路爬蟲是什麼,有很大的作用嗎

【網路爬蟲】又被稱為網頁蜘蛛,聚焦爬蟲,網路機器人,在FOAF社區中間,更經常的稱為網頁追逐者,是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
網路爬蟲是一個自動提取網頁的程序,它為搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。聚焦爬蟲的工作流程較為復雜,需要根據一定的網頁分析演算法過濾與主題無關的鏈接,保留有用的鏈接並將其放入等待抓取的URL隊列。然後,它將根據一定的搜索策略從隊列中選擇下一步要抓取的網頁URL,並重復上述過程,直到達到系統的某一條件時停止。另外,所有被爬蟲抓取的網頁將會被系統存貯,進行一定的分析、過濾,並建立索引,以便之後的查詢和檢索;對於聚焦爬蟲來說,這一過程所得到的分析結果還可能對以後的抓取過程給出反饋和指導。

『伍』 網路爬蟲到底是怎麼回事

網路爬蟲(又被稱為網頁蜘蛛,網路機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動的抓取萬維網信息的程序或者腳本。在網路爬蟲的系統框架中,主過程由控制器,解析器,資源庫三部分組成。控制器的主要工作是負責給多線程中的各個爬蟲線程分配工作任務。解析器的主要工作是下載網頁,進行頁面的處理,主要是將一些JS腳本標簽、CSS代碼內容、空格字元、HTML標簽等內容處理掉,爬蟲的基本工作是由解析器完成。資源庫是用來存放下載到的網頁資源,一般都採用大型的資料庫存儲,如Oracle資料庫,並對其建立索引。

『陸』 用通俗的語言解釋什麼叫「網路爬蟲」

我感覺就是一個信息收集的自動程序

『柒』 如何對付網路爬蟲

要甄別網路爬蟲也很簡單,對真實訪問IP進行統計和排序,挑選出來前200名C段IP地址中每天訪問量超過3000次的IP段地址,然後去除白名單,最後再用IP地址資料庫去比對。根據經驗來說,一個C段地址每天超過3000次訪問已經肯定是一個大公司在訪問JavaEye了,可如果該來源C段並非出自像阿里巴巴,IBM中國公司,搜狐,騰訊這樣的公司地址,就可以99%斷定是網路爬蟲,直接用iptables幹掉該C段地址。

『捌』 通俗的講,網路爬蟲到底是什麼

網路爬蟲,又被稱為網頁蜘蛛、網路機器人,在FOAF社區中間,更經常地被稱為網頁追逐者。網路爬蟲是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。

傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。

聚焦爬蟲的工作流程較為復雜,需要根據一定的網頁分析演算法過濾與主題無關的鏈接,保留有用的鏈接並將其放入等待抓取的URL隊列。然後,它將根據一定的搜索策略從隊列中選擇下一步要抓取的網頁URL,並重復上述過程,直到達到系統的某一條件時停止。



簡單粗暴地理解網路爬蟲的話,就好比一隻蟲子在互聯網上爬來爬去,把它「看」到的信息反饋給用戶。我們平時使用的聽歌軟體,它大體上了解每個人的聽歌喜好,「每日推薦」、「年度聽歌報告」等都會推薦、整理和總結每個人偏好的類型、曲風、歌手等等。

還有一些團購平台,也會根據個人的喜好去推薦休閑娛樂的類型、地點等等,這就是利用網路爬蟲的結果,網路爬蟲根據用戶平日的搜索類型,把所有與之相關的信息全部爬取過來,統統搬運到用戶這里。這時候它就是一隻「益蟲」,是有益的「合法爬蟲」。

說完聽歌和團購,再來說說搶票。甭管飛機票火車票演唱會門票,相信大家十有八九都搶過。先拿演唱會門票來說,疫情之前,追星的少男少女們都好看看演唱會,演唱會里邊屬周傑倫的票最難搶,搶過票的都知道。

你要是搶到了,我敬你的網路爬蟲爬得快。雖然這是句玩笑,可事實上,的確是有一些人或團體通過強行突破網站反爬措施,竊取後台數據,爬走了大量門票,讓粉絲無路可走。

同理,一些針對飛機票、火車票的搶票軟體,也是以此手段抓取航空公司官網或火車購票平台的信息,導致用戶無法通過正常渠道購票。這個時候,網路爬蟲就變成了「害蟲」,也因此被定義為「惡意爬蟲」。

不論是「合法爬蟲」還是「惡意爬蟲」,網路爬蟲本質上就是數據的搬運工,無數據,不爬蟲。因此,要研究爬蟲,就要先明確數據來源。尤其是對小型公司來說,往往需要更多外部數據輔助商業決策。

俗話說,「君子愛財,取之有道」,失了「道」,那肯定就不夠「君子」了。而對於網路爬蟲來說,一旦它變得不再「君子」,它就成為了一隻害蟲。這時候,反爬蟲就應運而生了。在搬運數據的過程中,爬蟲與反爬蟲永遠處於一個此起彼伏、此消彼長的博弈狀態。

隨著數據資源的爆炸式增長,網路爬蟲的應用場景和商業模式也變得更加廣泛而多樣,網路爬蟲作為數據抓取的實踐工具,構成了互聯網開放和信息資源共享理念的基石。爬蟲本身是無罪的,也並未違背法律和道德。

但程序在運行的過程中,有可能對他人經營的網站造成破壞,爬取的數據有可能涉及隱私或機密,數據本身也可能產生法律糾紛。在使用爬蟲時,爬蟲開發者的道德自持和企業經營者的良知才是避免觸碰法律底線的根本所在。

閱讀全文

與如何看待網路爬蟲的盜亦有道相關的資料

熱點內容
筆記本硬體開關打開無線網路 瀏覽:625
江西共青團網路安全教學重播 瀏覽:257
松江區網路軟體賣價 瀏覽:911
360wifi總是創建網路 瀏覽:178
小米路由器有網路但無法訪問 瀏覽:557
家裝網路布線及路由器搭配 瀏覽:747
如何將電腦網路設置成靜態 瀏覽:930
路由器擴展網路以後不能上網 瀏覽:544
匯流排型計算機網路投資穩定性 瀏覽:276
軟體定義網路深度學習 瀏覽:651
skyworth搜不到無線網路 瀏覽:873
tnt網路設置 瀏覽:550
為什麼晚上高鐵網路信號很差 瀏覽:313
電腦連接網路咋受限 瀏覽:968
有什麼6個人玩的網路游戲 瀏覽:51
移動網路電視能安裝app么 瀏覽:814
江西廣電網路管理軟體 瀏覽:882
qq提示網路環境異常登錄不上 瀏覽:624
什麼是移動數據網路 瀏覽:278
計算機網路廣播策略 瀏覽:15

友情鏈接