搜索引擎如何運作?
搜索引擎有三個主要功能:
抓?。涸诨ヂ?lián)網(wǎng)上搜索內(nèi)容,查看他們找到的每個網(wǎng)址的代碼/內(nèi)容。
索引:存儲和組織在爬網(wǎng)過程中找到的內(nèi)容。一旦頁面在索引中,它就會在運行中顯示為相關(guān)查詢的結(jié)果。
排名:提供最能回答搜索者查詢的內(nèi)容,這意味著結(jié)果按最相關(guān)的順序排列。
什么是搜索引擎抓???
抓取是搜索引擎發(fā)送一組機器人(稱為爬蟲或蜘蛛)以查找新的和更新的內(nèi)容的發(fā)現(xiàn)過程。內(nèi)容可能會有所不同 - 可能是網(wǎng)頁,圖片,視頻,PDF等 - 但無論格式如何,內(nèi)容都是通過鏈接發(fā)現(xiàn)的。
那個詞是什么意思?
遇到本節(jié)中任何定義的問題?我們的SEO詞匯表具有章節(jié)特定的定義,可幫助您保持最新速度。
Googlebot首先提取幾個網(wǎng)頁,然后按照這些網(wǎng)頁上的鏈接查找新網(wǎng)址。通過沿著這條鏈路跳過,爬蟲能夠找到新的內(nèi)容并將其添加到名為Caffeine的索引中- 這是一個發(fā)現(xiàn)的URL的大型數(shù)據(jù)庫 - 以便在搜索者查找該URL上的內(nèi)容的信息時進行檢索。很好的匹配。
什么是搜索引擎索引?
搜索引擎處理并存儲他們在索引中找到的信息,索引是他們發(fā)現(xiàn)并認為足以為搜索者提供服務(wù)的所有內(nèi)容的龐大數(shù)據(jù)庫。
搜索引擎排名
當某人執(zhí)行搜索時,搜索引擎會在其索引中搜索高度相關(guān)的內(nèi)容,然后對該內(nèi)容進行排序,以期解決搜索者的查詢問題。搜索結(jié)果按相關(guān)性排序稱為排名。通常,您可以假設(shè)網(wǎng)站排名越高,搜索引擎認為該網(wǎng)站對查詢的相關(guān)性就越高。
可以阻止部分或全部站點的搜索引擎抓取工具,或指示搜索引擎避免在索引中存儲某些頁面。雖然可能有理由這樣做,但如果您希望搜索者找到您的內(nèi)容,則必須首先確保爬蟲可以訪問它并且可以編制索引。否則,它就像看不見一樣好。
抓?。核阉饕婵梢哉业侥木W(wǎng)頁嗎?
正如您剛剛了解到的那樣,確保您的網(wǎng)站被抓取并編入索引是顯示在SERP中的先決條件。如果您已經(jīng)擁有一個網(wǎng)站,那么最好先看看索引中有多少頁面。這將對Google是否正在抓取并查找您想要的所有頁面提供一些很好的見解,而不是您沒有。
檢查索引頁面的一種方法是“site:yourdomain.com”,一個高級搜索運算符。前往Google并在搜索欄中輸入“site:yourdomain.com”。這將返回Google在其指定網(wǎng)站的索引中的結(jié)果:
Google顯示的結(jié)果數(shù)量(請參閱上面的“關(guān)于XX結(jié)果”)并不準確,但它確實讓您清楚了解哪些網(wǎng)頁在您的網(wǎng)站上編制索引以及它們當前如何顯示在搜索結(jié)果中。
要獲得更準確的結(jié)果,請在Google Search Console中監(jiān)控并使用“索引覆蓋率”報告。如果您當前沒有,則可以注冊免費的Google Search Console帳戶。使用此工具,您可以為您的網(wǎng)站提交站點地圖,并監(jiān)控實際添加到Google索引的已提交頁面的數(shù)量等。
如果您沒有在搜索結(jié)果中的任何位置顯示,則可能有以下幾種原因:
1.您的網(wǎng)站是全新的,尚未抓取。
2.您的網(wǎng)站未鏈接到任何外部網(wǎng)站。
3.您網(wǎng)站的導航使機器人難以有效地抓取它。
4.您的站點包含一些稱為爬蟲指令的基本代碼,阻止搜索引擎。
5.您的網(wǎng)站因Google垃圾郵件策略而受到了處罰。
6.告訴搜索引擎如何抓取您的網(wǎng)站
如果您使用Google Search Console或“site:domain.com”高級搜索運算符,并發(fā)現(xiàn)索引中缺少某些重要頁面和/或某些不重要的頁面被錯誤編入索引,則可以進行一些優(yōu)化實施以更好地指導Googlebot您希望如何抓取您的網(wǎng)絡(luò)內(nèi)容。告訴搜索引擎如何抓取您的網(wǎng)站可以讓您更好地控制索引中的內(nèi)容。
大多數(shù)人都會考慮確保Google能夠找到他們重要的頁面,但很容易忘記有可能是您不希望Googlebot查找的頁面。這些可能包括具有精簡內(nèi)容的舊URL,重復的URL(例如電子商務(wù)的排序和過濾器參數(shù)),特殊促銷代碼頁,登臺或測試頁等等。
要使Googlebot遠離您網(wǎng)站的某些網(wǎng)頁和部分,請使用robots.txt。
robots.txt的
Robots.txt文件位于網(wǎng)站的根目錄(例如yourdomain.com/robots.txt)中,并建議您的網(wǎng)站搜索引擎應該和不應該抓取哪些部分,以及他們抓取您網(wǎng)站的速度,通過特定的robots.txt指令。
Googlebot如何處理robots.txt文件
1.如果Googlebot無法找到網(wǎng)站的robots.txt文件,則會繼續(xù)抓取該網(wǎng)站。
2.如果Googlebot找到某個網(wǎng)站的robots.txt文件,它通常會遵守這些建議并繼續(xù)抓取該網(wǎng)站。
3.如果Googlebot在嘗試訪問網(wǎng)站的robots.txt文件時遇到錯誤,但無法確定是否存在,則不會抓取該網(wǎng)站
優(yōu)化抓取預算!
抓取預算是Googlebot在離開之前在您的網(wǎng)站上抓取的平均網(wǎng)址數(shù),因此抓取預算優(yōu)化可確保Googlebot不會浪費時間瀏覽您不重要的網(wǎng)頁,而忽略了您的重要網(wǎng)頁。抓取預算對于擁有數(shù)萬個網(wǎng)址的超大型網(wǎng)站最為重要,但阻止抓取工具訪問您絕對不關(guān)心的內(nèi)容絕不是一個壞主意。只需確保不阻止抓取工具訪問您已添加其他指令的網(wǎng)頁,例如規(guī)范或無索引標記。如果Googlebot被阻止訪問某個網(wǎng)頁,則無法看到該網(wǎng)頁上的說明。
并非所有網(wǎng)絡(luò)漫游器都遵循robots.txt。意圖不好的人(例如,電子郵件地址刮刀)會構(gòu)建不遵循此協(xié)議的機器人。實際上,一些不良演員使用robots.txt文件來查找您的私人內(nèi)容的位置。雖然從登錄和管理頁面等私有頁面阻止抓取工具似乎合乎邏輯,以便它們不會顯示在索引中,但將這些URL的位置放在可公開訪問的robots.txt文件中也意味著具有惡意意圖的人可以更容易地找到它們。NoIndex這些頁面更好,并將它們放在登錄表單后面,而不是將它們放在robots.txt文件中。