• <acronym id="tz8o5"></acronym>
  • <tr id="tz8o5"><form id="tz8o5"><del id="tz8o5"></del></form></tr>
    <acronym id="tz8o5"></acronym>
      <optgroup id="tz8o5"><sup id="tz8o5"></sup></optgroup>
      1. NEWS

        新聞資訊

        時刻保持對數字市場的敏銳及前瞻性

        SEO基礎:搜索引擎的工作原理

        admin | 2021-09-11 | 分享至:

        我們在做SEO的過程中,會遇到各種各樣的問題,但只要我們弄明白了搜索引擎的工作原理,很多問題也可以迎刃而解。
        比如說網站首頁一直不收錄,我們就要知道搜索引擎收錄的過程是怎么樣的,利用其中的原理幫助網站收錄,還有網站排名一直上不去,如果我們知曉了排名的原理,也可以做一些工作,幫助排名提升,那搜索引擎具體是如何工作的呢
         
            搜索引擎的工作原理可以分為三步:從互聯網上抓取網頁、建立索引數據庫、在索引數據庫中搜索排序。
            (1)、從互聯網上抓取網頁,就是利用能夠從互聯網上自動收集網頁的Spider系統程序,自動訪問互聯網,并沿著任何網頁中的所有URL爬到其他網頁,重復這個過程,并把爬過的所有網頁收集回來。
            (2)、建立索引數據庫,就是由分析索引系統程序對收集回來的網頁進行分析,提取相關網頁信息,根據一定的相關度算法進行大量復雜計算,得到每一個網頁針對頁面內容中及超鏈中每一個關鍵詞的相關度或重要性,然后利用這些相關信息建立網頁索引數據庫。
             (3)、在索引數據庫中搜索排序,就是當用戶輸入關鍵詞搜索后,由搜索系統程序從網頁索引數據庫中找到符合該關鍵詞的所有相關網頁。因為所有相關網頁針對該關鍵詞的相關度早已算好,所以只需按照現成的相關度數值排序,相關度越高,網站排名越靠前。最后,由頁面生成系統將搜索結果的鏈接地址和頁面內容摘要等內容組織起來返回給用戶。
         
        搜索引擎的工作原理
           一、網頁搜集。
         
               搜索引擎網頁的搜集過程并不是在用戶提交關鍵詞后進行及時的搜索,而是預先將網頁搜集好并進行相關處理之后等待用戶的查詢。我們知道,在網絡比較暢通的情況下,從網上下載一篇網頁大概需要1秒鐘,因此如果用戶在查詢的時候即時去網上抓來成千上萬的網頁,一個個分析處理后再和用戶的查詢匹配,這樣的查詢時間就會很慢也不可能滿足用戶的需求。有可能多個用戶重復抓取同一個頁面,使系統的效益低下。面對大量的用戶查詢,不可能每來一個查詢,系統就到網上“搜索” 一次。大規模的搜索引擎是將一批預先搜集好的網頁進行管理和維護。如何維護?有兩種基本的方法。
               A、定期搜索法:每次搜集替換上一次的內容,我們稱之為“批量搜集”。由于每次都是重新來一次,對于大規模搜索引擎來說,每次搜索的時間都會花費幾周的時間。這樣的開銷比較大,通常兩次搜集的時間間隔也很長(如早期天網的版本大概每3個月搜索一次,google在一段時間曾是每隔28天搜索一次)。這種方法的好處是系統實現比較簡單,缺點是實時性不高,還有重復搜集所帶來的額外寬帶的消耗。
               B、增量搜集法:最初時搜集好一批數據,以后只是新出現的網頁和改變的網頁并刪除不再存在的網頁。除了新聞網站外,許多網頁的內容并不是經常變化的,這樣一來每次搜集的網頁量不會很大,于是可以經常去搜集。30萬個網頁,一臺pc機,在一般的網絡條件下,半天也就搜集完了。這樣的系統表現出來的信息實時性就會比較高,主要缺點是系統實現比較復雜。
               在具體搜集過程中,如何抓取一篇篇的網頁,可以有不同的考慮。最常見的是一種所謂“爬取”的過程,具體過程是:將Web上的網頁集合看作十億個有向圖,搜集過程從給定的起始URL的集合S(或者說種子)開始,沿著網頁中的鏈接,按照先深、先寬或者別的某種策略遍歷,不停的從S中移除URL,下載相應的網頁,解析出網頁中的超鏈接URL,看是否已經被訪問過,將未訪問的那些URL加入集合S。整個過程可以形象地想象為一個蜘蛛(Spider)在蜘蛛網上(Web)上爬行。一個真正的系統其實是多個“蜘蛛”同時在爬。
               這種方法實現起來并不算困難,但需要注意的是在實現過程中通過一定的策略,使收集到的某些網頁相對比較"重要"。我們知道任何搜索引擎是不可能將Web上網頁搜集完全的,通常都是在某些條件的限制下來結束搜集的過程(如磁盤滿,或者搜集時間已經太長了)。因此就有了一個盡量使搜到的網頁比較重要的問題,這對于那些并不追求很大的數量覆蓋率的搜索引擎特別重要。一般情況下按照先款搜索方式得到網頁集合比先深搜索得到的集合重要。
               另外一種可能的方式是在第一次全面網頁搜集后,系統維護相應的URL集合S,往后的搜集直接基于這個集合。每搜到一個網頁,如果它發生變化并含有新的 URL,則將它們對應的網頁也抓回來,并將這些新URL也放到集合S中;如果S中某個URL對應的網頁不存在了,則將它從S中刪除。這種方式也可以看成是一種極端的先款搜索,即第一層是一個很大的集合,往下最多只延伸一層。
               還有一種方法是讓網站擁有者主動向搜索引擎提交他們的網址,系統在一定時間內向那些網站派出“蜘蛛”程序,掃描該網站的所有網頁并將有關信息存入數據庫中。大型商業搜索引擎一般都提供這種功能。
         
        二、建立索引庫
         
            互聯網上大部分信息都是以HTML格式存在,對于索引來說,只處理文本信息。因此需要把網頁中的文本內容提取出來,過濾掉一些腳本標識符和一些無用的廣告信息,同時記錄文本的版面格式信息。網頁處理主要包括四個方面:關鍵詞的提取、重復或轉載網頁的消除、鏈接分析和網頁重要程度的計算。
            1、關鍵詞的提?。河捎贖TML文檔產生來源的多樣性,許多網頁在內容上比較隨意,不僅文字不講究規范、完整,而且還可能包含許多和主要內容無關的信息(如廣告、導航條、版權說明等)。為了支持查詢服務,需要從網頁源文件中提取能夠代表它的內容的一些特征—關鍵詞。
                網頁處理階段的一個基本任務,就是要提取出網頁源文件的內容部分所包含的關鍵詞。對于中文來說,就是要根據一個詞典,用一個“切詞軟件”,從網頁文字中切出詞典所含的詞語來。這樣一片網頁就可以由一組詞來近似代表了,p={t1、t2、t3、t4......tn}。一般來講,可能得到很多的詞,同一個詞可能在一篇網頁中多次出現。從效果和效率來考慮,不應該讓所所有的詞都出現在網頁的表示中,要去掉諸如“的”、“在”等沒有內容指示意義的詞,稱為 “停用詞”(Stop Word)。這樣,對一篇網頁來說,有效的詞語數量大約為200。
         
        搜索引擎的工作原理
            2、重復或轉載網頁的消除:我們知道Web上的信息存在大量的重復現象。統計分析表明,網頁的重復率平均大約為4。也就是說,當通過一個URL在網上看到一篇網頁的時候,還有另外三個不同的URL也給出相同或者基本相似的內容。這種現象對于搜索引擎來說,它在搜集網頁的時要消耗機器時間和網絡寬帶資源,而且如果在查詢的結果中出現,將消耗查詢者計算機的資源,也會引來用戶的抱怨。因此,消除內容重復或主題重復的網頁是網頁處理階段的一個重要任務。
            3、鏈接分析:從信息檢索的角度講,如果系統僅僅面對的是內容的文字,我們能依據關鍵詞和關鍵詞在文檔中集合出現的頻率來統計該詞的相對重要性以及和某些內容的相關性。有了HTML標記后,情況可能進一步改善,例如,在同一篇HTML中,<H1>和</H1>之間的信息很可能就比在<H4>和</H4>之間的信息更重要。尤其HTML文檔中所含的指向其他文檔的鏈接信息是人們特別關注的的對象,認為它們不僅給出了網頁之間的關系,而且還對判斷網頁的內容有很重要的作用。
            4、網頁重要度的計算:搜索引擎返回給用戶的,是一個和用戶查詢相關的結果列表。列表中條目的順序是很重要的一個問題。不同的順序到達的結果是不一樣的,因此搜索引擎實際上追求的是一種統計意義上的滿意。例如,人們認為利用google查詢比較好,是因為在多數情況下google返回的內容更要符合用戶的需要。
           如何對查詢結果進行排序有很多因素需要考慮,如何理解一篇網頁比另外一篇網頁重要?人們參照科技文檔重要性的評估方式,核心思想就是“被引用的最多的就是最好的”。“引用”這個概念恰好可以通過在網頁之間的超鏈進行體現,作為google創立核心技術的Page-Rank就是這種思路的成功體現。除此以外,人們還注意到網頁和文檔的不同特點,即一些網頁主要是大量的對外鏈接,其本身基本沒有一個明確的主題內容,而另外有些網頁則被大量的其他網頁鏈接。從某種意義上講,這形成了一種對偶的關系,這種關系可以使得人們在網頁上建立另外一種重要性指標。這些指標有的可以在網頁處理階段計算,有的則要在查詢階段計算,但都是作為查詢服務階段最終形成結果排序的部分參數。
         
        三、從索引庫中建立搜索排序
         
            為了完成查詢服務,需要有相應的元素來進行表達,這些元素主要有:原始網頁文檔、URL和標題、編號、所含重要關鍵詞的集合以及它們在文檔中出現的位置信息、其他一些指標,如重要程度、代碼等。
            用戶通過搜索引擎看到的不是一個“集合”,而是一個“列表”。如何從集合產生成一個列表,是服務子系統的主要工作。服務子系統是在服務進行的過程中涉及相關軟件程序,而網頁處理子系統事先為這些軟件程序準備了相應的數據。服務子系統的工作原理,主要有4個方面。
            1、查詢方式和匹配。
            查詢方式指的是系統允許用戶提交查詢的方式。對于普通用戶來說,最自然的方式就是“需要查詢什么就輸入什么”。例如,用戶輸入“搜索引擎”,可能是他想了解搜索引擎的相關定義、概念和相應的知識;也可能是想了解目前有哪些搜索引擎,如何進行搜索等內容;也有可能是用戶關心的是間接的信息。目前用一個詞或者短語來進行查詢,依然是主流的查詢模式,這種模式比較簡單并且容易實現。
            詞的是搜索引擎中非常關鍵的一部分,通過字典文件對網頁內的詞進行識別。對于西文信息來說,需要識別詞的不同形式,例如:單復數、過去式、組合詞、詞根等,對于一些亞洲語言(中文、日文、韓文等)需要進行分詞處理。識別出網頁中的每個詞,并分配唯一的wordID號,用于為數據索引中的索引模塊服務。
            例如:當用戶輸入“搜索引擎教程”時,系統首先將這個短語進行分詞處理,將其分為“搜索 引擎 教程”,然后刪除那些沒有查詢意義或者在每篇文檔中都會出現的詞,最后形成一個用于參與匹配的查詢詞表,該詞表的數據結構是一個用對應的分詞作為索引的一個倒排文件,它的每一個元素都對應倒排文件。這樣系統就完成了查詢和文檔的匹配。
           2、索引庫的建立。
            索引庫的建立是數據索引中結構最復雜的一部分。一般需要建立兩種索引:文檔索引和關鍵詞索引。文檔索引分配給每個網頁唯一的docID號,根據docID 號索引出在這個網頁中出現過多少個wordID,每個wordID出現的次數、位置、大小格式等,形成docID對應wordID的數據列表;關鍵詞索引其實是對文檔索引的的逆索引,根據wordID索引出這個詞出現在哪些網頁(用wordID表示),出現在每個網頁的次數、位置、大小寫格式等,形成 wordID對應docID的列表。
            3、結果排序。
            結果就是將查詢的結果的集合以列表的方式顯示出來。所謂列表,就是按照某種評價方式,確定出查詢結果集合中元素的順序,讓這些元素以某種順序呈現出來,這就是相關性。相關性是形成這種查詢順序的的基本因素,有效地定義相關性本身是很難的,從原理上講它不僅和查詢詞有關,而且還和用戶的查詢背景,以及用戶的查詢歷史有關。不同需求的用戶可能輸入同一個查詢,同一個用戶在不同的時間輸入的相同查詢可能是針對不同的需求的。
            一般來講,結果排序的方法是基于詞匯出現頻率,也就是說在一篇文檔中包含的查詢詞越多,則該文檔就越應該排在前面。這樣的思路有一定的道理,而且在倒排文件數據結構上很容易實現。當我們通過關鍵詞的提取過程,形成一篇文檔的關鍵詞的集合后,很容易得到每一個詞在文檔中出現的次數,即詞率,而倒排文件中每個倒排表的長度則對應著每個詞所涉及的文檔的篇數,即文檔頻率。然而,由于網頁編寫的自發性、隨意性較強,僅僅針對關鍵詞的出現來決定文檔的順序,在Web 上做信息檢索表現出明顯的缺點,需要有其他技術的補充。通過在網頁處理階段為每篇網頁形成一個獨立于查詢詞(也就是和網頁內容無關)的重要性指標,將它和查詢過程中形成的相關性指標結合形成一個最終的排序,是目前搜索引擎給出查詢結果排序的主要方法。
            搜索的處理過程是對用戶的搜索請求進行滿足的過程,通過用戶輸入搜索關鍵詞,搜索服務器對應關鍵詞字典,把搜索關鍵詞轉化為wordID,然后在索引庫中得到docID列表,對docID列表進行掃描和wordID的匹配,提取滿足條件的網頁,然后計算網頁和關鍵詞的相關度,根據相關度的數值返回給用戶。
            4、文檔摘要。
            搜索引擎給出的結果是一個有序的條目列表,每個條目中有3個基本元素:標題、網頁描述、網址和摘要。其中摘要需要從網頁正文中生成。
            一般來講,搜索引擎在生成摘要時可以歸納為兩種方式:一種是“靜態”方式,即獨立于查詢,按照某種股則,事先在預處理階段從網頁內容中提取出一些文字,如截取網頁正文的開頭512個字節(對應256個漢字),或者將每一個段落的第一個句子拼起來,等等。這樣形成的摘要存放在查詢子系統中,一旦相關文檔被選中與查詢匹配,就讀出返回給用戶。這種方式的優點是實現起來比較容易,缺點是摘要可能和查詢的內容無關;另一種是“動態摘要”方式,即在相應查詢的時候,根據查詢詞在文檔中的位置,提取出周圍的文字來,在顯示時將查詢詞標亮。這是目前大多數搜索引擎采用的方式。為了保證查詢的效率,需要在預處理階段分詞的時候記住每個關鍵詞在文檔中出現的位置。

        熟妇人妻无码中文字幕老熟妇
      2. <acronym id="tz8o5"></acronym>
      3. <tr id="tz8o5"><form id="tz8o5"><del id="tz8o5"></del></form></tr>
        <acronym id="tz8o5"></acronym>
          <optgroup id="tz8o5"><sup id="tz8o5"></sup></optgroup>