国产一区二区网站_亚洲精品一区二区在线电影_欧美在线激情_美女黄网站人色视频免费国产

服務熱線:400-0033-166
萬商云集 - 企業數字化選用平臺

企業首選的

數字選用平臺

企業網站建設資訊:搜索引擎的原理是什么

2019-03-27 14:23:08 閱讀(278 評論(0)

企業網站建設搜索引擎的原理,可以看做三步從互聯網上抓取網頁一建立索引數據庫一在索引數據庫中搜索排序。

14.png

從互聯網上抓取網頁

利用能夠從互聯網上自動收集網頁的系統程序,自動訪問互聯網,并沿著任何網頁中的所有爬到其它網頁,重復這過程,并把爬過的所有網頁收集回來。

18.png

建立索引數據庫

由分析索引系統程序對收集回來的網頁進行分析,提取相關網頁信息包括網頁所在、編碼類型、頁面內容包含的所有關鍵詞、關鍵詞位置、生成時間、大小、與其它網頁的鏈接關系等,根據一定的相關度算法進行大量復雜計算,得到每一個網頁針對頁面文字中及超鏈中每一個關鍵詞的相關度或重要性,然后用這些相關信息建立網頁索引數據庫。

8.png

在索引數據庫中搜索排序

當用戶輸入關鍵詞搜索后,由搜索系統程序從網頁索引數據庫中找到符合該關鍵詞的所有相關網頁。因為所有相關網頁針對該關鍵詞的相關度早已算好,所以只需按照現成的相關度數值排序,相關度越高,排名越靠前。最后,由頁面生成系統將搜索結果的鏈接地址和頁面內容摘要等內容組織起來返回給用戶。搜索引擎的一般要定期重新訪問所有網頁各搜索引擎的周期不同,可能是幾天、幾周或幾月,也可能對不同重要性的網頁有不同的更新頻率,更新網頁索引數據庫,以反映出網頁文字的更新情況,增加新的網頁信息,去除死鏈接,并根據網頁文字和鏈接關系的變化重新排序。這樣,網頁的具體文字變化情況就會反映到用戶查詢的結果中。互聯網雖然只有一個,但各搜索引擎的能力和偏好不同,所以抓取的網頁各不相同,排序算法也各不相同。大型搜索引擎的數據庫儲存了互聯網上幾千萬至搜索引擎并不真正搜索互聯網,它搜索的實際上是預先整理好的網頁索引數據庫搜索引擎,也不能真正理解網頁上的內容,它只能機械的匹配網頁上的文字。

16.png

真正意義上的搜索引擎,通常指的是收集了互聯網上幾千萬到幾十億個網頁并對網頁中的每一個文字即關鍵詞進行索引,建立索引數據庫的全文搜索引擎。

當用戶查找某個關鍵詞的時候,所有在頁面內容中包含了該關鍵詞的網頁都將作為搜索結果被搜出來。在經過復雜的算法進行排序后,這些結果將按照與搜企業網站的搜索引擎搜索優化研究幾十億的網頁索引,數據量達到幾千甚至幾萬。

但即使最大的搜索引擎建立超過二十億網頁的索引數據庫,也只能占到互聯網上普通網頁的不到,不同搜索引擎之間的網頁數據重疊率一般在以下。

我們使用不同搜索引擎的重要原因,就是因為它們能分別搜索到不同的網頁。而互聯網上有更大量的網頁,是搜索引擎無法抓取索引的,也是我們無法用搜索引擎搜索到的。

未經允許不得轉載,或轉載時需注明出處
萬商匯入駐企業