• <span id="pdwzl"></span>
    <acronym id="pdwzl"></acronym>
    <span id="pdwzl"><sup id="pdwzl"></sup></span>
  • <span id="pdwzl"></span>
    <legend id="pdwzl"></legend>

  • <legend id="pdwzl"></legend>

    對搜索結果排序的兩種算法-深圳諾仁

    時間: 2021-04-29 10:13 來源: 作者: 閱讀:


           任何一個搜索引擎的目的就是更快速的響應用戶的搜索,把滿足用戶需求的搜索結果反饋給搜索用戶。能否把與用戶檢索需求最相關的高質量文檔納入結果排序的前面是衡量搜索引擎性能的關鍵技術之一。Google最成功的地方在于利用PageRank對Google排名結果排序,讓好的結果排在前面,從而提高了檢索質量。

           目前,不同的搜索引擎使用了不同的相關度排序方法。比較流行的有兩類:詞頻統計法,即網頁文檔中出現查詢詞的頻率越高,其排序就越靠前;超鏈接分析法,即一個網頁被鏈接的次數越多而且鏈接的站點越權威就說明此網頁的質量越高。此外,還有點擊率法,即網頁被點擊的次數越多,相關度越高;付費競價法,以網站付費的多少來決定排序前后。

    1.詞頻統計法

           詞頻統計法也就是向量空間模型采用的相似度計算方法。許多搜索引擎都以索引項的詞頻和位置作為相關度的判定標準,采用前述的詞頻加權方法來計算相關度。一個詞在網頁文檔中出現的頻率越高,它代表該文檔主題的程度就越大,其作為索引項的準確性也就越高,權值就越大。在與查詢詞匹配時,它所代表的文檔與查詢請求的相關度就越高。除詞頻外,一個詞在文檔中的位置也對索引器選詞和計算詞的權值產生影響。例如在網頁title標簽、鏈點標簽、Meta keyword標簽、Meta description標簽中選詞并按詞頻計算權值時,或索引項出現在網頁標題、文章前幾段、段首等位置時,其權值會加大。雖然大多數搜索引擎都以詞頻和詞的位置來計算相關度,但在細節上又各有不同。在計算網頁的相關度時,其中各詞的關系和詞間的相對位置也是影響因素。網頁中各詞的相互距離越近則結果排序越靠前。以詞頻和詞位置計算相關度的方法是較為客觀準確的,它是應用最為廣泛也是最成熟的方法,各大搜索引擎迄今仍以它作為計算相關度的基本方法。但它較易為人利用來實現不良競爭,輕易地把其網頁設計修改成“含有關鍵詞的網頁”,從而在搜索引擎結果中排在前面。這使搜索引擎結果的客觀性和準確性受到侵害,檢索的查準率受到影響。各大搜索引擎于是實施了各種反操縱技術和懲罰措施,特別是在網頁本身之外另辟蹊徑,尋找相關度的判定標準,其中最主要的就是下面所述的鏈接分析法。

    2.鏈接分析法

           面對網絡這個新的環境,必須使用新的排序技術才能達到較好的檢索效果。由此,基于超鏈分析的各種排序算法被搜索引擎界提出。絕大部分超鏈分析算法都有共同的出發點:更多地被其他頁面鏈接的頁面是質量更好的頁面,并且從更重要的頁面出發的鏈接有更大的權重。最著名的鏈接分析法是Brin.s和Page.L于1998年提出并應用到Google搜索引擎中的PageRank,以及IBM用于CLEVER搜索引擎的HITS(Hypertext InducedTopic Selection)。


    亚洲国产精品福利|黄色视频在线观看品|性色生活大片特黄一级大片性色吧|欧美日韩免费a片