
專注用戶體驗(yàn)設(shè)計(jì)與開(kāi)發(fā)
-
商務(wù)合作
- 郵箱:123456789@qq.com
- 手機(jī):15323711532
- 座機(jī):0755-84185494
- 地址:廣東省深圳市龍崗區(qū)布吉中興路21號(hào)基業(yè)大廈
Copyright ? 2015 深圳市鑫惠廣網(wǎng)絡(luò)科技有限公司 粵ICP備2023111395號(hào)
洛陽(yáng)SEO技術(shù)介紹:url,即統(tǒng)一資源定位符,通過(guò)對(duì)url的分析,我們可以更好地理解頁(yè)面抓取過(guò)程。那么,搜索引擎怎么抓取網(wǎng)頁(yè)的?一起來(lái)詳細(xì)了解一下吧。
一、洛陽(yáng)SEO告訴你url是什么意思?
URL,英文全稱為“uniform resource locator”,中文譯為“統(tǒng)一資源定位符”。
在網(wǎng)站優(yōu)化中要求每一個(gè)頁(yè)面有且僅有一個(gè)唯一的統(tǒng)一資源定位符(URL),但往往很多網(wǎng)站同一頁(yè)面對(duì)應(yīng)了很多個(gè)URL,如果都被搜索引擎收錄且未做URL轉(zhuǎn)向,就會(huì)產(chǎn)生權(quán)重不集中的情況,通常稱為URL不規(guī)范。
二、url的組成
統(tǒng)一資源定位符(URL),由三部分組成:協(xié)議方案、主機(jī)名和資源名。
例如:
https:// www.x**.org /11806
其中https為協(xié)議方案,www.***.org 為主機(jī)名 ,11806為資源,不過(guò)這個(gè)資源不太明顯,一般資源后綴為.html,當(dāng)然還可以是.pdf、.php、.word等格式。
三、搜索引擎怎么抓取網(wǎng)頁(yè)的?頁(yè)面抓取過(guò)程簡(jiǎn)述
無(wú)論是我們平時(shí)用的互聯(lián)網(wǎng)瀏覽器,還是網(wǎng)絡(luò)爬蟲(chóng),雖然是兩種不同的客戶端,但獲取頁(yè)面的方式卻是相同的。頁(yè)面抓取過(guò)程如下:
① 連接DNS域名系統(tǒng)服務(wù)器
客戶端都會(huì)先連接到DNS域名服務(wù)器上,DNS服務(wù)器將主機(jī)名( www.***.org )轉(zhuǎn)換為IP地址,并反饋給客戶端。
PS:本來(lái)我們通過(guò)111.152 . 151.45 的地址來(lái)訪問(wèn)某網(wǎng)站,為了方便記憶和使用,才利用DNS域名系統(tǒng)轉(zhuǎn)換為了 www.***.org 。這也就是DNS域名系統(tǒng)的作用。
② 連接IP地址服務(wù)器
該IP服務(wù)器下可能會(huì)有很多程序(網(wǎng)站),可以通過(guò)端口號(hào)來(lái)做區(qū)分,同時(shí)每個(gè)程序(網(wǎng)站)都會(huì)監(jiān)聽(tīng)端口是否有新的連接請(qǐng)求,HTTP網(wǎng)站默認(rèn)為80,HTTPS網(wǎng)站默認(rèn)為443。
不過(guò)通常情況下,端口號(hào)80和443是默認(rèn)不出現(xiàn)的。
舉例來(lái)講:
https://www.***.org:443/ = https://www.***.org/
http://www.***.org:80/ = http://www.***.org/
③ 建立連接并發(fā)送頁(yè)面請(qǐng)求
客戶端與服務(wù)器建立連接后,會(huì)發(fā)送頁(yè)面請(qǐng)求,通常為get,也可以是post。
get 11806 HTTPS/
獲取HTTPS協(xié)議下的頁(yè)面11806 返回給客戶端。之后如需繼續(xù)獲取更多頁(yè)面,則發(fā)送其他請(qǐng)求,否則將關(guān)閉該連接。
以上就是洛陽(yáng)SEO為你詳細(xì)介紹的搜索引擎怎么抓取網(wǎng)頁(yè)的有關(guān)知識(shí),希望以上的介紹對(duì)你有所幫助。
專注用戶體驗(yàn)設(shè)計(jì)與開(kāi)發(fā)
Copyright ? 2015 深圳市鑫惠廣網(wǎng)絡(luò)科技有限公司 粵ICP備2023111395號(hào)