時間: 2021-04-29 11:44 來源: 作者: 閱讀: 次
在網絡信息的查找利用過程中,搜索引擎的檢索結果往往過于龐大,搜索引擎用戶一般只會瀏覽前面的一部分結果,例如深圳諾仁曾經做過的關于搜索引擎排名的關注度的調查。具體數據,可以查看:http://www.seo.com.cn/Search-Attention.html.
通過對檢索結果進行相關性排序,搜索引擎的最終目的是將最相關的網絡信息盡可能地優先顯示在搜索結果的前面部分,以改進搜索結果的輸出。雖然各個搜索引擎中相關度排序的具體實現各不相同,基本上都采用了基于網站內容的分析方法,即考慮用戶所查詢的關鍵詞在文檔網頁中的出現情況,包括關鍵詞頻率、關鍵詞位置等因素。這些方法有很大的局限性。一方面,相關度高的頁面不一定是受用戶普遍歡迎的頁面;另一方面,有些網頁可能會利用一些優化因素來欺騙搜索引擎,在SEO行業中這種行為,稱為:SEOSPAM.目的是提升某關鍵詞的頁面的排名位置。
事實上,網絡中蘊含了豐富的結構信息。頁面之間的超鏈接反映了頁面之間的引用關系,頁面被其他站點或其他網頁引用的次數基本上也反映了該網頁的受歡迎程度或重要性。超鏈接中的鏈源對鏈宿頁面也起到了概括的作用,這種概括在一定程度上比鏈宿頁面內的概括,如頁面的標題、關鍵字、摘要等更為客觀、準確。這也就是為什么使用目標關鍵字作為鏈接錨文本,對搜索引擎排名提升的幫助更大的原因。所以,大部分的搜索引擎的算法,都是在致力更加準確的鏈接分析。
目前比較知名的相關算法是:PageRank和HITS搜索引擎算法。
Web頁面權威性(authorrity)可由Web頁面鏈接來反映。Web不僅由頁面組成,而且還包含了從一個頁面指向另一個頁面的超鏈接。超鏈接包含了大量潛在的語義,這些信息有助于搜索引擎的的語義分析算法分析出權威性語義。當一個Web頁面的作者建立指向另一個頁面的鏈接時,可以看做是作者對另一網頁的注解。把對一個頁面的來自不同作者的注解收集起來,就可以用來反映該頁面的重要性,并可以很自然地用于權威Web頁面的發現。因此,大量的Web網頁鏈接信息提供了豐富的關于網頁內容相關性、質量和結構方面的信息,可供于搜索引擎算法的研究分析。