
專注用戶體驗設計與開發(fā)
-
商務合作
- 郵箱:123456789@qq.com
- 手機:15323711532
- 座機:0755-84185494
- 地址:廣東省深圳市龍崗區(qū)布吉中興路21號基業(yè)大廈
Copyright ? 2015 深圳市鑫惠廣網(wǎng)絡科技有限公司 粵ICP備2023111395號
在互聯(lián)網(wǎng)時代,搜索引擎可以說是日常生活的一部分。不僅如此,搜索引擎歷經(jīng)20多年的風霜雨雪,仍然牢牢占據(jù)著流量入口,不得不讓人感嘆。
而且,提起搜索引擎,我們都會想到一家高大上的巨無霸公司和一家被黑出xiang的巨霸公司。足以見得搜索引擎的巨大作用。
作為產(chǎn)品人,對此當然不能視而不見,也應該了解了解其工作原理。
搜索引擎工作原理大致可以分為3個步驟
1. 爬行與抓取
2. 預處理
3. 排序
所謂一圖勝千言,沒圖我說個……
PS:上圖總結自《SEO實戰(zhàn)密碼》。
下面詳細敘述:
簡單地說:就是搜索引擎蜘蛛沿著互聯(lián)網(wǎng)絡爬行并抓取其爬行的頁面,將這些抓取的頁面存儲起來。
說到這,你可能會問:為什么叫「蜘蛛」?
為了抓取盡量多的頁面,搜索引擎會跟蹤頁面上的鏈接,從一個頁面爬行到下一個頁面,好像蜘蛛在蜘蛛網(wǎng)上爬行那樣,這就是搜索引擎蜘蛛這個名稱的由來。
搜索引擎在跟蹤網(wǎng)絡上的鏈接時,會使用一定策略,因為現(xiàn)在的網(wǎng)絡鏈接太多。最簡單的爬行遍歷策略有兩種,一種是深度優(yōu)先,一種是廣度優(yōu)先。
還有一點值得一提:搜索引擎訪問網(wǎng)站頁面時類似于普通用戶使用的瀏覽器。搜索引擎蜘蛛抓取的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫,其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML完全一樣。
由于抓取的頁面數(shù)量太大(以”億”為單位),無法快速實時排序,所以需要預處理。這就是產(chǎn)品設計中的「復雜性守恒原則」,我們沒辦法讓用戶等待十幾秒甚至更久,就只能在后臺處理上下功夫。
在一些資料中,「預處理」也被稱為「索引」,因為「索引」是預處理最主要的內(nèi)容。
預處理的過程比較復雜,值得一提的有這么幾點:
得到了倒排索引,就能很快地根據(jù)用戶搜索的關鍵詞找到對應文件,但這樣就夠了嗎?別天真啊。
通過上述步驟,其實只得到了頁面本身的內(nèi)容。說白了,就是頁面本身告訴搜索引擎自己如何如何。
俗話說:王婆賣瓜,自賣自夸。
就像我們網(wǎng)購時不僅會看店家給的商品介紹,還會看看買家的評論一樣,頁面內(nèi)容質量,也需要其他人的評價——這里的「其他人」指「其他頁面。」所以,我們還需要鏈接關系計算。
發(fā)現(xiàn)沒有:排名,是用戶是用戶唯一能感覺到的步驟,爬行與抓取、預處理,都在后臺完成。正因如此,用戶才會感到用起來十分快捷。
排名的過程也比較復雜,其中值得一提的有如下幾點:
但由于每個關鍵詞對應的文件數(shù)量都可能是巨大的(如幾億個),處理如此龐大的數(shù)據(jù)量,無法滿足用戶對「快」的需求。同時,用戶并不需要所有內(nèi)容,他們往往只查看前幾頁內(nèi)容,甚至很多用戶只查看第一頁的前幾條內(nèi)容。因此,選擇一定數(shù)量的內(nèi)容進行處理,很有必要。這就涉及到選擇初識子集。
但如何選擇呢?這是一個問題。
但到此就結束了嗎?還沒有哦。
專注用戶體驗設計與開發(fā)
Copyright ? 2015 深圳市鑫惠廣網(wǎng)絡科技有限公司 粵ICP備2023111395號