發(fā)布時(shí)間:2020-07-06 18:10:33
關(guān)注量:464次
欄目:營銷推廣
來源:燭火電子商務(wù)
在線咨詢:
13935176676
搜索引擎工作原理簡介
在前面一章我們已經(jīng)對搜素引擎做了一番了解,相信認(rèn)真看來的朋友,已經(jīng)對搜索引擎有了進(jìn)一步的了解。那么接下來,深圳網(wǎng)站建設(shè)公司啟幫互動(dòng)將繼續(xù)對搜 索引擎的工作原理進(jìn)行介紹,想了解更多搜索引擎知識(shí)的朋友,就請繼續(xù)閱讀本章,本章以后我們還會(huì)繼續(xù)推送更多的內(nèi)容。
· 搜索引擎的工作過程
第一步:爬行和抓取
搜索引擎蜘蛛會(huì)通過鏈接訪問網(wǎng)頁,從而獲得頁面HTML代碼存入數(shù)據(jù)庫中。
第二步:預(yù)處理
索引程序會(huì)對抓取來的頁面數(shù)據(jù)進(jìn)行文字提取、中文分詞、索引等處理,以備排名程序調(diào)用。
第三部:搜索排名處理
在用戶搜索信息時(shí),根據(jù)用戶輸入的關(guān)鍵詞,搜索引擎會(huì)調(diào)用數(shù)據(jù)庫進(jìn)行匹配,上一章我們講的相關(guān)性也會(huì)進(jìn)行計(jì)算,使用戶獲得更多的內(nèi)容,最后是按照一定格式生成搜索結(jié)果頁面。
下面對以上知識(shí)點(diǎn)進(jìn)行細(xì)分
· 蜘蛛爬行和抓取
搜索引擎日常獲取數(shù)據(jù)的程序,被稱為蜘蛛,也是機(jī)器人。當(dāng)搜索引擎要訪問網(wǎng)站時(shí),也會(huì)發(fā)出請求信號(hào),這時(shí)服務(wù)器會(huì)返回html代碼信息,蜘蛛接收到返回信息就會(huì)把存入原始數(shù)據(jù)庫。一般搜素引擎為了提高工作效率,會(huì)使用多個(gè)蜘蛛進(jìn)行爬行和抓取。
搜索引擎訪問任何網(wǎng)站也都是有自己的原則的,他會(huì)先訪問帶有robots.txt這種文件,在互聯(lián)網(wǎng)上我們會(huì)有一些不希望被別知道的信息,如客戶的資料信息,個(gè)人私密信息等,這些信息我們不希望被廣為流傳,這時(shí)候我們就可以設(shè)置robots.txt來告訴蜘蛛,這些內(nèi)容不要被抓取。
蜘蛛來個(gè)訪問我們的網(wǎng)站時(shí),也會(huì)留下標(biāo)記表明自己的身份,我們可以在蜘蛛日志里面看到,有哪些搜索引擎來訪問過我們的網(wǎng)站。如何查看蜘蛛日志,可以通過ftp在網(wǎng)站根目錄下面找到一個(gè)日志文件,文件名一般包含log,下載解壓里面的記事本,這即是網(wǎng)站的日志,一般哪個(gè)蜘蛛來爬過我們的網(wǎng)站,我們可以看標(biāo)記,如、;百度蜘蛛會(huì)帶有‘baidu’字樣,大家仔細(xì)看一下就可以分辨了。
· 跟蹤鏈接爬行
深度爬行
大家知道我們的網(wǎng)站結(jié)構(gòu)是分為很多層級(jí)的,首先是首頁,然后是欄目也頁,欄目頁以后是內(nèi)頁,懂一點(diǎn)的人都因該知道,網(wǎng)站層級(jí)最好不要超過五級(jí),不然會(huì)對蜘蛛的抓取有阻礙,蜘蛛的抓取由首頁開始,一級(jí)一級(jí)往下,這就是深度抓取。
廣度抓取
廣度抓取是在深度抓取之上建立的,當(dāng)蜘蛛沿著一級(jí)一級(jí)去抓取時(shí),如果到某一級(jí),這一級(jí)還有另外的鏈接,蜘蛛就會(huì)先沿著這個(gè)鏈接先去抓取,之后才會(huì)沿著之前的軌跡繼續(xù)下去。
· 怎樣引蜘蛛
說道這里或許有人會(huì)有疑問,為什么要引蜘蛛。這里我們先講一下,為什么要引蜘蛛,現(xiàn)在是信息時(shí)代,每日互聯(lián)網(wǎng)上新的數(shù)據(jù)實(shí)在太過龐大,蜘蛛也不可能全部的爬完,這個(gè)時(shí)候蜘蛛有一種機(jī)制,“內(nèi)容優(yōu)先”,就是好的內(nèi)容會(huì)優(yōu)先爬行,這就會(huì)造成一些負(fù)面的影響,到最一部分的信息不能被及時(shí)的收錄,特別是一些權(quán)重比較低的站點(diǎn),蜘蛛來爬行的機(jī)率相對那些大站來說,真的要小很多,這就會(huì)導(dǎo)致互聯(lián)網(wǎng)市場上競爭的不均衡。
所以,如果我們的網(wǎng)站權(quán)重過低,蜘蛛來爬行的機(jī)率過低的話,就需要我們?nèi)ノ┲雭?。最常用的方法是:每日定時(shí)定量的跟新內(nèi)容,所發(fā)內(nèi)容質(zhì)量要高,可以到一些好的站點(diǎn)發(fā)高質(zhì)量的外鏈,前面我們已經(jīng)講過蜘蛛的爬行方式,這里就不重復(fù)了。
· 什么是地址庫
所謂地址庫,我們要從“地址”上去理解,是搜索引擎對爬行抓取數(shù)據(jù)進(jìn)行歸檔,對每一條數(shù)據(jù)都會(huì)歸檔,這樣搜索引擎抓取數(shù)據(jù)時(shí),就不會(huì)重復(fù)的抓取。我們也可以主動(dòng)提交鏈接,鏈接會(huì)提交到待訪問地址庫,搜素引擎會(huì)線過濾,覺的內(nèi)容有用,就會(huì)收錄內(nèi)容,放入已訪問地址庫。在哪里提交鏈接,我們可以到百度站長提交鏈接,特別是原創(chuàng)文章,為保障原創(chuàng)人的權(quán)益,可以選擇先去提交鏈接。
如果您覺得本文有用,那就請繼續(xù)關(guān)注我們,接下來我們將有更多好東西向您推送。大數(shù)引擎專業(yè)打造營銷型網(wǎng)站建設(shè)、深圳網(wǎng)站設(shè)計(jì)、深圳網(wǎng)站建設(shè)、深圳網(wǎng)站制作、手機(jī)網(wǎng)站建設(shè)、APP制作如果您有這方面的需求,可以在線咨詢我們大數(shù)引擎,我們隨時(shí)歡迎您。
在線咨詢:
13935176676