最新消息

News

甚麼是robots.txt?robots.txt 教學及設定 – 網站 SEO 爬蟲就靠它!

What Is robots.txt? robots.txt Tutorial And Settings - Website SEO Crawler Relies On It!

發佈日期:2023-07-06 | 撰:Matthew

在進行網站的SEO(Search Engine Optimization)優化時,有些網站管理員可能會忽略 robots.txt 這個文件的重要性。這個文件可以告訴搜索引擎爬蟲哪些網頁可以被索引,哪些網頁可以被忽略。在本篇文章中,我們將會介紹 robots.txt 的作用以及如何應用在 SEO 上。

什麼是 robots.txt?

robots.txt 是一個文本文件,它包含了網站所需要告訴搜索引擎的一些信息。這些信息包括哪些頁面是可以被搜索引擎爬蟲訪問的,哪些頁面是應該被忽略的,以及爬蟲訪問網站的頻率限制等等。這個文件通常放置在網站的根目錄下,並且可以通過瀏覽器訪問。

robots.txt 主要功能

robots.txt 宣告網站內容納入索引的權限,可以設定網站想要讓哪些搜尋引擎檢索或著不檢索,也可以指定網站哪些目錄連結不要讓搜尋引擎索引,但要注意,如果是想讓網站中的特定頁面不要出現在搜尋結果中,並不建議使用 robots.txt 輸入網址子目錄來禁止搜尋引擎檢索,應該要在想要禁止索引的頁面中加入 meta 標籤向搜尋引擎宣告 nofollow,才是正確的方式。

robots.txt 主要的用途

主要是用於網站資料過於龐大,需要要篩選出一些較為不重要的資源來避免搜尋引擎檢索要求次數過多,導致網站超出負荷過載,而此類網站資源通常為圖片、影片、文章分頁、動態網址、媒體附件檔案等,對網站內容是否要允許檢索其判別標準大致上是「 此頁面出現在搜尋結果中,對網站本身與使用者而言沒有價值」。

當然價值為何就要看您本身網站架設的目的了,如果網站架設前有做好規劃,相信很輕易就能做出分別。

在本篇教學中將說明如何在 Search Console 中編輯 robots.txt 並對寫入指令規則做簡單介紹以及網址測試功能,另外也會講解在 WordPress 後台使用 Yoast SEO 編輯 robots.txt 的方法,因為編輯時都是以指令碼的方式來宣告,建議先行參考下方提供的 robots.txt 規範連結,了解指令規則後再來嘗試編輯。接下來跟著我們的腳步開始學習吧!

如何編寫及提交 robots.txt 檔案

您可以透過網站的 robots.txt 檔案控管檢索器可存取的檔案。

robots.txt 檔案位於網站的根目錄。也就是說,www.example.com 網站的 robots.txt 檔案就位於 www.example.com/robots.txt。robots.txt 是遵循漫遊器排除標準的純文字檔案,其中包含一或多項規則。這些規則的作用是禁止(或開放)所有或某個特定檢索器存取代管 robots.txt 檔案的網域或子網域上的特定檔案路徑。除非您在 robots.txt 檔案中另行指定,否則系統將允許檢索所有檔案。

以下是一個包含兩項規則的簡單 robots.txt 檔案:

User-agent: *
Allow: /wp-admin/admin-ajax.php
Allow: /page-sitemap.xml
Disallow: /wp-admin/
Sitemap: https://www.example.com/sitemap.xml
該 robots.txt 檔案代表以下含義:
  1. 名為 Googlebot 的使用者代理程式無法檢索任何以 https://example.com/nogooglebot/ 開頭的網址。
  2. 不是 Googlebot 的使用者代理程式則可以檢索整個網站。即使不指定這項規則,結果也會一樣;系統會預設允許使用者代理程式檢索整個網站。
  3. 網站的 Sitemap 檔案位於 https://www.example.com/sitemap.xml。

如需更多範例,請參閱Google 提供的 robot.txt 語法一節。

建立 robots.txt 檔案的基本原則

如要建立 robots.txt 檔案,並允許該檔案可公開存取,可採取以下五個步驟:

1. 建立 txt 檔案

幾乎所有文字編輯器都能用來建立 robots.txt 檔案,例如 Notepad、TextEdit、vi 和 emacs 都可以建立有效的 robots.txt 檔案。但請不要使用文書處理軟體,因為這類軟體通常會將檔案儲存為某種專有格式,有可能因此加上彎引號等不相容字元,或許會使檢索器發生問題。「儲存檔案」對話方塊出現提示時,請務必以 UTF-8 編碼儲存檔案。

格式和位置規則:

  • 檔案名稱必須是 robots.txt。
  • 您的網站只能有一個 robots.txt 檔案。
2. 如何編寫 robots.txt 規則

規則是用來規範檢索器可檢索網站的哪些部分。在 robots.txt 檔案中新增規則時,請遵循下列準則:

  • user-agent:【必要,每個群組可指定一或多個 User-agent 項目】這項規則會指定規則適用的自動化用戶端(就是所謂的搜尋引擎檢索器)名稱,也是每個規則群組的第一行內容。Google 使用者代理程式清單列出了各種 Google 使用者代理程式的名稱。使用星號(*)表示要比對各種 AdsBot 檢索器以外的所有檢索器;如要比對 AdsBot 檢索器,必須特別指明。
  • disallow:【每項規則至少要有一個 disallow 或 allow 項目】禁止使用者代理程式在根網域下檢索的目錄或網頁。如果規則指向網頁,則必須提供瀏覽器中顯示的完整網頁名稱。規則必須以 / 字元開頭,如果指向目錄,則必須以 / 標記結尾。
  • allow:【每項規則至少要有一個 disallow 或 allow 項目】允許前述使用者代理程式在根網域下檢索的目錄或網頁。這個指令可用於覆寫 disallow 規則,允許使用者代理程式檢索位於禁止檢索目錄下的子目錄或網頁。如果是單一網頁,請指定瀏覽器中顯示的完整網頁名稱;規則必須以 / 字元開頭,如果指向目錄,則必須以 / 標記結尾。
  • sitemap:【選用;每個檔案可包含零或多個 sitemap 項目】該網站的 Sitemap 所在位置。Sitemap 網址必須為完整網址;Google 不會假設或檢查是否有 http / https / www / 非 www 等替代網址。Allow 和 Disallow 的用途是指出 Google「可以」或「不可」檢索哪些內容,Sitemap 則適合用於指出 Google「應該」檢索哪些內容。進一步瞭解 Sitemap
3. 上傳 robots.txt 檔案

將 robots.txt 檔案儲存在電腦中後,您就可以開放讓搜尋引擎檢索器進行檢索。目前沒有工具可協助您進行這項工作,因為將 robots.txt 檔案上傳至網站的方式取決於您的網站和伺服器架構。您可以與您的代管公司聯絡,或搜尋代管公司的說明文件。

4. 測試 robots.txt 標記

如要測試新上傳的 robots.txt 檔案是否可公開存取,請在瀏覽器中開啟私密瀏覽視窗(或同等功能),然後前往 robots.txt 檔案位置,例如 https://example.com/robots.txt。如果畫面顯示 robots.txt 檔案內容,表示您可以開始測試標記。

Google 提供兩種測試 robots.txt 標記的方式:

  • Search Console 中的 robots.txt 測試工具。您只能針對網站已開放存取的 robots.txt 檔案使用這項工具。
  • 如果您是開發人員,請參閱 Google 的開放原始碼 robots.txt 程式庫(這也是 Google 搜尋使用的程式庫),並按照說明建立自己的程式庫。您可以使用這項工具在本機電腦上測試 robots.txt 檔案。
5. 將 robots.txt 檔案提交給 Google

在您上傳並測試 robots.txt 檔案後,Google 檢索器會自動尋找並開始使用 robots.txt 檔案。

robots.txt 對 SEO 的影響主要體現在以下兩個方面:

控制搜索引擎索引

編寫一個合適的 robots.txt 文件可以控制搜索引擎爬蟲訪問哪些網頁,進而控制搜索引擎對網站的索引。如果一些不重要的頁面被索引了,可能會分散搜索引擎的注意力,降低網站的排名。因此,編寫一個合適的 robots.txt 文件可以讓搜索引擎更加關注網站的重要頁面,提高網站的排名。

避免重複內容

如果網站有多個複本頁面,搜索引擎爬蟲可能會重複索引這些頁面,進而導致重複內容。這樣會對SEO產生負面影響。通過編寫 robots.txt 文件,可以讓搜索引擎爬蟲不索引這些複本頁面,從而避免重複內容出現。

MarketHK eDM 行銷:與你並進!

在進行網站的 SEO 優化時,合適地編寫 robots.txt 文件是非常重要的。通過控制搜索引擎爬蟲的訪問,可以提高網站的排名,避免重複內容出現。因此,網站管理員應該重視 robots.txt 文件的編寫,以達到更好的 SEO 效果。但是需要注意的是,在編寫 robots.txt 文件時,需要確保指令的準確性和完整性,否則可能會導致搜索引擎無法正確解讀,從而影響網站的排名。此外,在編寫 robots.txt 文件時,也需要考慮搜索引擎爬蟲的差異性,不同的搜索引擎爬蟲可能會有不同的訪問方式和頻率限制,需要進行相應的調整。

最後,對於讀者,需要注意的是,由於當地的網絡環境和法律法規與其他地區可能存在差異,因此在編寫 robots.txt 文件時需要遵循當地的相關規定和要求,以確保網站的合法性和安全性。

Marketing 方式各樣,SEO 仍然是在眾多網路平台中佔據「一哥」地位。做 Marketing 行銷與時並進,我們的 SEO 團隊亦為你們與時並進,提供上述功能!讓你的 Marketing 行銷成效更理想吧!

20230706
在進行網站的SEO(Search Engine Optimi...
20220902
即使社交媒體和SMS/iMessage/WhatsApp是熱...
20221103
GIF圖 似乎無處不在。在Blog、社交媒體、朋友的SMS入...
20230328
踏入 2023 年,隨著 ChatGPT 興起,無論政府、商...
20240809
想要為補習班解決招生及營業額虧損的問題,使用正確的POS系統...