丁香五月天婷婷国产|91麻豆精品|另类婷婷五月天网站|日韩无码视频中出|无码任你躁久久久|狠狠的搞激情99|草在线观看视频免费|精品999ww网站|久久无码综合一区|一区二区三区四区αα

您好,歡迎來(lái)到中國(guó)企業(yè)庫(kù)   [請(qǐng)登陸]  [免費(fèi)注冊(cè)]
小程序  
APP  
微信公眾號(hào)  
手機(jī)版  
 [ 免責(zé)聲明 ]     [ 舉報(bào) ]
客服電話:13631151688
企業(yè)庫(kù)首頁(yè)>資訊
行業(yè)
超級(jí)獵聘人才網(wǎng) 廣告

如何理解搜索引擎的抓取原理

作者:威海韋恩信息科技有限公司 來(lái)源:weienkeji 發(fā)布時(shí)間:2016-01-15 瀏覽:348

  為什么我們所發(fā)布的文章有很多都不收錄,自己一個(gè)字一字搞出來(lái)的內(nèi)容,還是不收錄那是為什么?搜索引擎抓取原理它經(jīng)過(guò)哪幾個(gè)過(guò)程?想必這是很多站長(zhǎng)都有的疑問(wèn),一直摸不清蜘蛛抓取的脾氣,這里威海網(wǎng)絡(luò)公司韋恩科技還是要強(qiáng)調(diào),做任何一件事之前一定要先了解它的規(guī)則,只有了解了規(guī)則,才能更好的運(yùn)用規(guī)則。

  一、蜘蛛是什么

  我們把搜索引擎比喻無(wú)邊無(wú)際的網(wǎng)絡(luò)海洋,有海量的信息。蜘蛛就是計(jì)算機(jī)的的一套程序,專門(mén)來(lái)抓取檢索互聯(lián)網(wǎng)上的信息。蜘蛛也叫爬蟲(chóng)和機(jī)器人,就是一套信息抓取系統(tǒng)?;ヂ?lián)網(wǎng)就像一張蜘蛛網(wǎng),而在這張網(wǎng)上爬取信息的,就像蜘蛛一樣在互聯(lián)網(wǎng)上反復(fù)地爬來(lái)爬去,不知道累的,所以叫作網(wǎng)絡(luò)蜘蛛。

  二、搜索過(guò)程

  當(dāng)我們?cè)谒阉骺蛑兴阉饕粋€(gè)關(guān)鍵詞的時(shí)候,輸出的結(jié)果搜索引擎是需要經(jīng)過(guò)一些很復(fù)雜的過(guò)程才能展現(xiàn)給用戶,一般都需要經(jīng)過(guò)四個(gè)過(guò)程:抓取、過(guò)濾、建立索引和輸出結(jié)果。當(dāng)我們?cè)谒阉饕婵吹降闹皇且唤Y(jié)果,搜索根據(jù)各種算法,把某個(gè)關(guān)鍵詞的展現(xiàn)在首頁(yè)的{dy}位。

  三、收錄過(guò)程

  收錄過(guò)程就要經(jīng)過(guò)上面所說(shuō)的四個(gè)過(guò)程:抓取、過(guò)濾、建立索引和輸出結(jié)果。

  1、抓取

  網(wǎng)站有沒(méi)有被收錄首先要看一下網(wǎng)站的蜘蛛訪問(wèn)日志,看一下蜘蛛有沒(méi)有來(lái),如果蜘蛛都沒(méi)有抓取那是不可能被收錄的。收錄的前提是要搜索引擎要來(lái)抓取,這個(gè)可以從網(wǎng)站的IIS日志里面可以看得到,也就是服務(wù)器日志,如果沒(méi)有來(lái)呢?那么就主動(dòng)向搜索引擎提交,搜索引擎會(huì)派出蜘蛛來(lái)抓取網(wǎng)站,這才有可能被收錄。

  2、過(guò)濾

  網(wǎng)站被抓取了并不代表一定會(huì)被收錄,搜索引擎會(huì)先去判斷這個(gè)頁(yè)面的價(jià)值。蜘蛛來(lái)抓取了會(huì)把數(shù)據(jù)帶回去,放到臨時(shí)的數(shù)據(jù)庫(kù)中,再進(jìn)行過(guò)濾。過(guò)濾掉一些垃圾的內(nèi)容或者是低質(zhì)量的內(nèi)容??茨愕男畔⑹遣皇遣杉诨ヂ?lián)網(wǎng)上有大量的相同信息,它不會(huì)把你的信息建立索引。那有的人會(huì)問(wèn)了,有的時(shí)候我們自己寫(xiě)的文章也不會(huì)被收錄,那都是我們一個(gè)字一個(gè)字搞出來(lái)的,那難道不是一篇很好的原創(chuàng)嗎?的確是一篇不錯(cuò)原創(chuàng)內(nèi)容,為什么有時(shí)不會(huì)被收錄呢?那就低質(zhì)量的內(nèi)容,低質(zhì)量的內(nèi)容看的不是你文章寫(xiě)得有多么的精彩,那要看你文章是不是用戶所關(guān)注的,是不是用戶所需求的。

  3、建立索引與輸出結(jié)果

  通過(guò)一系列的要求,符合收錄的內(nèi)容之后建立索引,建立索引之后這個(gè)時(shí)候就是被收錄了的。當(dāng)用戶在搜索關(guān)鍵詞就會(huì)輸出結(jié)果,輸出的結(jié)果排在{dy}的,是有搜索引擎內(nèi)的各算法比如一些外鏈的tp,匹配是否相關(guān)等等的一系統(tǒng)的算法,把你的頁(yè)面排在前面。在這里收錄還有一種情況,收錄只經(jīng)過(guò)抓取再到輸出結(jié)果,中間的兩個(gè)過(guò)程是沒(méi)有經(jīng)過(guò)的,就是說(shuō)抓取到馬上就收錄的。這是在什么情況下呢?那就是具有很強(qiáng)的時(shí)效性的內(nèi)容,比如新聞?lì)惖?,它就具有很?qiáng)的時(shí)效性,比效今天發(fā)生了一件特大事件給大部分的用戶所關(guān)注,所以所發(fā)布信息給抓取到了,搜索引擎會(huì){dy}時(shí)間展現(xiàn)給用戶。這樣信息一過(guò)用戶就不會(huì)再去關(guān)注了,以后就沒(méi)有太大的價(jià)值,在里就有一個(gè)問(wèn)題,用戶所關(guān)注度過(guò)了之后,搜索引擎會(huì)重新檢索這一類(lèi)內(nèi)容,如果是垃圾內(nèi)容,低質(zhì)量?jī)?nèi)容還是會(huì)給搜索引擎過(guò)濾掉的。

  四、蜘蛛抓取的兩種策略

  1、廣度優(yōu)先

  廣度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會(huì)先抓取起始網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè),然后再選擇其中的一個(gè)鏈接網(wǎng)頁(yè),繼續(xù)抓取在此網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè)。這一種抓取方法速度是很快的,這是最常見(jiàn)的方式,因?yàn)檫@個(gè)方法可以讓網(wǎng)絡(luò)蜘蛛并行處理,提高其抓取速度。

  2、深度優(yōu)先

  深度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會(huì)從起始頁(yè)面開(kāi)始,一個(gè)鏈接一個(gè)鏈跟蹤下去,處理完這條路線之后再轉(zhuǎn)入一下個(gè)起始頁(yè),繼續(xù)跟蹤鏈接。這一種方法抓取速度會(huì)比較慢一些,有可能抓著抓著就找不到回到起始頁(yè)的方向。這兩種方法只是蜘蛛抓取的策略,只作一個(gè)了解就可以了。

總結(jié):威海網(wǎng)絡(luò)公司韋恩科技認(rèn)為簡(jiǎn)單地了解了一下蜘蛛是什么,搜索得出來(lái)的結(jié)果,搜索引是經(jīng)過(guò)了四個(gè)過(guò)程以及收錄的四個(gè)過(guò)程:抓取、過(guò)濾、建立索引和輸出結(jié)果。還就是蜘蛛抓取的兩種策略只作一個(gè)了解就可以了。

原文地址:http:///html/2016/xinwendongtai_0114/225.html,轉(zhuǎn)載請(qǐng)注明出處。

 

 

鄭重聲明:資訊 【如何理解搜索引擎的抓取原理】由 威海韋恩信息科技有限公司 發(fā)布,版權(quán)歸原作者及其所在單位,其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)(企業(yè)庫(kù)www.5ix2s.cn)證實(shí),請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。若本文有侵犯到您的版權(quán), 請(qǐng)你提供相關(guān)證明及申請(qǐng)并與我們聯(lián)系(qiyeku # qq.com)或【在線投訴】,我們審核后將會(huì)盡快處理。
會(huì)員咨詢QQ群:902340051 入群驗(yàn)證:企業(yè)庫(kù)會(huì)員咨詢.
免費(fèi)注冊(cè)只需30秒,立刻尊享
免費(fèi)開(kāi)通旗艦型網(wǎng)絡(luò)商鋪
免費(fèi)發(fā)布無(wú)限量供求信息
每天查看30萬(wàn)求購(gòu)信息