時間: 2021-04-29 11:40 來源: 作者: 閱讀: 次
動態鏈接是指網頁中爬蟲無法識別的鏈接。爬蟲的鏈接提取器不能從網頁中提取出所有的鏈接,因為有一些可能存儲在特定格式(如JavaScript)中,而鏈接提取器無法對這種格式解碼。這種鏈接的格式直接影響到爬蟲爬取頁面的數量。下面描述了一種類型的動態鏈接。
早期網絡中的鏈接只有一種簡單的格式。它們必須以“<a href="">開始,以</a>”結束。引用標記是可選的,可以插入空格符,但是一個爬蟲只需要在網頁中查找“<a href=”來判斷鏈接的開始,這樣就可以有效的從網頁中提取所有的鏈接。使用網頁編程語言JavaScript后,鏈接地址以各種各樣的形式存放在網頁中,因此,不能保證從網頁中提取出所有的鏈接。舉例來說,一個帶JavaScript代碼的網頁可能有一個主鏈接,而實際URL地址嵌入到了JavaScript動態鏈接是鏈接分析數據有效性的一大威脅。如果一個或多個站點廣泛地使用JavaScnipt,以防止被搜索引擎索引。那么,就不可能有效地分析這些數據集了。對于大型站點而言,通常只在某些網頁上使用JavaScript技術,只要能提取起始網頁中的鏈接,遍歷時仍可以獲得滿意的網站覆蓋率。
有效遍歷的障礙不僅包括JavaScript還包括Java和Shockwave。網站設計者需要注意:如果希望自己的站點能夠被商業搜索引擎的爬蟲訪問,就必須保證所設計的網頁中有足夠多的“標準”鏈接(即HTML鏈接)。