搜索引擎工作原理之索引與鏈接關(guān)系的計算

標簽： | 作者：眾騰網(wǎng)絡 | VISITORS:3360 | 來源：www.kluangjohor.com

AUG
2015

通過上一篇內(nèi)容《搜索引擎工作原理之收錄預處理》，我們知道搜索引擎蜘蛛在爬行和抓取網(wǎng)頁的時候進行了提取文字信息，分詞，去噪，去重，最后便得到了一個關(guān)于頁面主題的關(guān)鍵詞集合，接下來搜索引擎會對這個集合進行正向索引，即把每個頁面中的多個關(guān)鍵詞和頁面建立對應關(guān)系，并且同時會對這些關(guān)鍵詞記錄它們的密度，頻率，表現(xiàn)格式等權(quán)重信息，表現(xiàn)格式主要是分析這些關(guān)鍵詞是否使用了H1標簽，是否使用了粗體或顏色變化，是否出現(xiàn)在了頁面的title，description，keywords標簽等權(quán)重標簽。

當這個正向索引關(guān)鍵詞集合建立起來以后，依然不能用來進行排名計算，如果用戶在搜索引擎中輸入關(guān)鍵詞，那么搜索引擎需要在這個集合中先找見關(guān)鍵詞，然后再找出與關(guān)鍵詞對應的頁面，最后通過進行復雜的計算程序得出排名，顯然這個運算過程在短時間內(nèi)是難以完成的。為了提高用戶搜索信息能實時返回結(jié)果，搜索引擎會對上面得到的正向索引信息進行反向索引，即以關(guān)鍵詞為單位，把跟它對應的頁面放入同一個集合中，這樣在用戶搜索關(guān)鍵詞進行排序的時候，搜索引擎只要找到匹配的關(guān)鍵詞就能返回包含這個關(guān)鍵詞的頁面集合，當搜索引擎預處理工作進行到這里時，大家是不是對它的工作原理已經(jīng)有點明朗了。

當搜索引擎進行反向索引之后，還需要計算大量的相關(guān)信息才能對頁面做出排名，在這個過程中最為關(guān)鍵的就是計算頁面的鏈接關(guān)系，比如有哪些頁面通過鏈接導入這個頁面，這個頁面導出了哪些鏈接，鏈接的錨文本采用了哪些關(guān)鍵詞等等，這個運算量是非常龐大的。關(guān)于計算鏈接關(guān)系，google的PR值就是這種鏈接關(guān)系的一種體現(xiàn)。

除了對html文件進行索引外，搜索引擎還能對其他形式的文件進行索引，比如常見的TXT，PPT，WORD，PDF文件等，雖然現(xiàn)在搜索引擎對圖片，F(xiàn)lash動畫，視頻的索引能力大大增強，但是跟索引html文件能力比起來，還是有一段距離的，所以大家在網(wǎng)站中放置一些圖片，動畫或者視頻的時候，最好配上文字說明，為搜索引擎蜘蛛做出引導，減輕它的工作壓力。

轉(zhuǎn)載聲明：本文由桂林眾騰網(wǎng)絡原創(chuàng)文章
轉(zhuǎn)載請注明來源： http://zt-web.com/shows.php?id=512

上一篇：網(wǎng)站設計如何影響網(wǎng)站運營的？

網(wǎng)站W(wǎng)eb服務器硬件配置選擇：下一篇

相關(guān)新聞

搜索引擎工作原理之收錄預處理

搜索引擎工作過程中一個非常重要的階段“收錄預處理”，...
網(wǎng)站設計如何提升氣質(zhì)和品質(zhì)？

從網(wǎng)站的設計來說，第一眼讓人感覺不同，這樣的網(wǎng)站都...
新的網(wǎng)站收錄最快的方法

說到新的網(wǎng)站收錄最快的方法，我相信會有很大一部分人建...
以用戶文化底蘊為切入點做好營銷型網(wǎng)站

營銷型網(wǎng)站有著自己的特點和要求。與常規(guī)宣傳展示型網(wǎng)站...
企業(yè)網(wǎng)站建設在有哪些細節(jié)被忽略了？

企業(yè)從網(wǎng)站上線伊始就應該做好明確的定位，很多企業(yè)的網(wǎng)...
令網(wǎng)站看起來不專業(yè)的十個設計誤區(qū)

不管是否一個羽翼未豐企業(yè)的領(lǐng)導，專業(yè)的網(wǎng)站能為你帶來...
搜索引擎如何判斷文章的原創(chuàng)度

總有人在說自己的文章被抄襲，然后抄襲者收錄了，自己的...
不懂SEO的程序員不是優(yōu)秀的程序員

為了讓網(wǎng)站在搜索引擎上面提現(xiàn)價值，很多seo方面的知...
新上線網(wǎng)站推廣的實戰(zhàn)操作及經(jīng)驗

網(wǎng)上那些網(wǎng)絡推廣的教程讓他們應接不暇，可是看了許多過...

亚洲一区二区三区91,久久久久久国产精品免费,亚洲综合欧美日本另类激情,最近中文字幕高清电影在线,亚洲欧美综合区自拍另类,国产精品久久二区三区色裕

搜索引擎工作原理之索引與鏈接關(guān)系的計算