วิธีปิดการใช้งานทุกอย่างในโรบ็อต วิธีป้องกันการจัดทำดัชนีหน้าที่จำเป็น คำสั่ง "โฮสต์:" และ "แผนผังไซต์:"

โรบ็อตส่วนใหญ่ได้รับการออกแบบมาอย่างดีและไม่ก่อให้เกิดปัญหาใดๆ กับเจ้าของเว็บไซต์ แต่ถ้าบอทเขียนโดยมือสมัครเล่นหรือ "มีบางอย่างผิดพลาด" ก็สามารถสร้างภาระที่สำคัญบนไซต์ที่รวบรวมข้อมูลได้ อย่างไรก็ตาม สไปเดอร์ไม่ได้เข้าสู่เซิร์ฟเวอร์เหมือนไวรัสเลย - พวกมันเพียงแค่ขอเพจที่ต้องการจากระยะไกล (อันที่จริงสิ่งเหล่านี้คือเบราว์เซอร์ที่คล้ายคลึงกัน แต่ไม่มีฟังก์ชันการดูเพจ)

Robots.txt - คำสั่งตัวแทนผู้ใช้และบอทเครื่องมือค้นหา

Robots.txt มีไวยากรณ์ที่เรียบง่าย ซึ่งมีการอธิบายอย่างละเอียด เช่น ใน ยานเดกซ์ช่วยด้วยและ Google ช่วยด้วย. โดยปกติจะบ่งชี้ว่าคำสั่งต่อไปนี้มีไว้สำหรับบอทการค้นหาใด: ชื่อบอท (" ผู้ใช้ตัวแทน") อนุญาต (" อนุญาต") และห้าม (" ไม่อนุญาต") และ "แผนผังไซต์" ยังถูกใช้อย่างแข็งขันเพื่อระบุให้เครื่องมือค้นหาทราบอย่างชัดเจนว่าไฟล์แผนที่นั้นอยู่ที่ใด

มาตรฐานนี้ถูกสร้างขึ้นเมื่อนานมาแล้วและมีบางอย่างถูกเพิ่มเข้ามาในภายหลัง มีคำสั่งและกฎการออกแบบที่โรบ็อตของเครื่องมือค้นหาบางประเภทเท่านั้นที่จะเข้าใจได้ ใน RuNet มีเพียง Yandex และ Google เท่านั้นที่สนใจซึ่งหมายความว่าคุณควรทำความคุ้นเคยกับความช่วยเหลือในการรวบรวม robots.txt ในรายละเอียดโดยเฉพาะ (ฉันได้ให้ลิงก์ไว้ในย่อหน้าก่อนหน้า)

ตัวอย่างเช่น ก่อนหน้านี้เครื่องมือค้นหา Yandex มีประโยชน์ในการระบุว่าโครงการเว็บของคุณเป็นโครงการหลักในคำสั่ง "โฮสต์" พิเศษซึ่งมีเพียงเครื่องมือค้นหานี้เท่านั้นที่เข้าใจ (รวมถึง Mail.ru ด้วยเนื่องจากการค้นหาของพวกเขามาจาก Yandex ). จริงอยู่ที่ต้นปี 2561 ยานเดกซ์ยังคงยกเลิกโฮสต์และตอนนี้ฟังก์ชันต่างๆ ของมันก็เหมือนกับเครื่องมือค้นหาอื่นๆ ที่ดำเนินการโดยการเปลี่ยนเส้นทาง 301

แม้ว่าทรัพยากรของคุณจะไม่มีมิเรอร์ แต่ก็มีประโยชน์ในการระบุว่าตัวเลือกการสะกดคำใดเป็นตัวเลือกหลัก - .

ตอนนี้เรามาพูดถึงไวยากรณ์ของไฟล์นี้กันสักหน่อย คำสั่งใน robots.txt มีลักษณะดังนี้:

<поле>:<пробел><значение><пробел> <поле>:<пробел><значение><пробел>

รหัสที่ถูกต้องควรมี คำสั่ง "ไม่อนุญาต" อย่างน้อยหนึ่งคำสั่งหลังแต่ละรายการ “User-agent” ไฟล์ว่างจะถือว่าได้รับอนุญาตให้จัดทำดัชนีทั้งไซต์

ผู้ใช้ตัวแทน

คำสั่ง "ตัวแทนผู้ใช้"ต้องมีชื่อของบอทการค้นหา คุณสามารถตั้งค่ากฎพฤติกรรมสำหรับเครื่องมือค้นหาแต่ละอันได้ (เช่น สร้างการห้ามสร้างดัชนีโฟลเดอร์แยกต่างหากสำหรับ Yandex เท่านั้น) ตัวอย่างการเขียน “User-agent” ที่ส่งถึงบอททั้งหมดที่เยี่ยมชมทรัพยากรของคุณมีลักษณะดังนี้:

ตัวแทนผู้ใช้: *

หากคุณต้องการตั้งค่าเงื่อนไขบางอย่างใน "User-agent" สำหรับบอทตัวเดียวเท่านั้น เช่น Yandex คุณจะต้องเขียนสิ่งนี้:

ตัวแทนผู้ใช้: Yandex

ชื่อของโรบ็อตเครื่องมือค้นหาและบทบาทในไฟล์ robots.txt

บอทของทุกเครื่องมือค้นหามีชื่อเป็นของตัวเอง (เช่น StackRambler สำหรับนักเดินเตร่) ที่นี่ฉันจะให้รายชื่อผู้ที่มีชื่อเสียงที่สุด:

Google http://www.google.com Googlebot Yandex http://www.ya.ru Yandex Bing http://www.bing.com/ bingbot

เครื่องมือค้นหาหลักๆ ก็มีบ้าง ยกเว้นบอทหลักนอกจากนี้ยังมีอินสแตนซ์แยกต่างหากสำหรับการจัดทำดัชนีบล็อก ข่าวสาร รูปภาพ ฯลฯ คุณสามารถรับข้อมูลมากมายเกี่ยวกับประเภทของบอท (สำหรับ Yandex) และ (สำหรับ Google)

ในกรณีนี้จะเป็นอย่างไร? หากคุณต้องการเขียนกฎสำหรับการห้ามการจัดทำดัชนีซึ่งโรบ็อตของ Google ทุกประเภทต้องปฏิบัติตาม จากนั้นใช้ชื่อ Googlebot และสไปเดอร์อื่น ๆ ทั้งหมดของเครื่องมือค้นหานี้ก็จะต้องปฏิบัติตามเช่นกัน อย่างไรก็ตาม คุณสามารถแบนได้เฉพาะการจัดทำดัชนีรูปภาพโดยระบุบ็อต Googlebot-Image เป็น User-agent ตอนนี้ยังไม่ชัดเจนนัก แต่ด้วยตัวอย่าง ฉันคิดว่ามันจะง่ายกว่านี้

ตัวอย่างการใช้คำสั่ง Disallow และ Allow ใน robots.txt

ฉันจะให้สิ่งง่ายๆสองสามข้อแก่คุณ ตัวอย่างการใช้คำสั่งพร้อมคำอธิบายถึงการกระทำของเขา

โค้ดด้านล่างอนุญาตให้บอททั้งหมด (ระบุด้วยเครื่องหมายดอกจันใน User-agent) จัดทำดัชนีเนื้อหาทั้งหมดโดยไม่มีข้อยกเว้น สิ่งนี้มอบให้ คำสั่งว่าง Disallow. ตัวแทนผู้ใช้: * ไม่อนุญาต:
ในทางตรงกันข้ามรหัสต่อไปนี้ห้ามมิให้เครื่องมือค้นหาทั้งหมดเพิ่มหน้าของทรัพยากรนี้ลงในดัชนีโดยสิ้นเชิง ตั้งค่านี้เป็น Disallow ด้วย "/" ในช่องค่า ตัวแทนผู้ใช้: * Disallow: /
ในกรณีนี้ บอททั้งหมดจะถูกห้ามไม่ให้ดูเนื้อหาของไดเร็กทอรี /image/ (http://mysite.ru/image/ เป็นพาธสัมบูรณ์ไปยังไดเร็กทอรีนี้) User-agent: * Disallow: /image/
หากต้องการบล็อกไฟล์เดียว ก็เพียงพอที่จะลงทะเบียนเส้นทางที่แน่นอนของมัน (อ่าน): User-agent: * Disallow: /katalog1//katalog2/private_file.html
เมื่อมองไปข้างหน้าฉันจะบอกว่าการใช้เครื่องหมายดอกจัน (*) ง่ายกว่าเพื่อไม่ให้เขียนเส้นทางแบบเต็ม:
ไม่อนุญาต: /*private_file.html
ในตัวอย่างด้านล่าง ไดเร็กทอรี "image" จะไม่ได้รับอนุญาต เช่นเดียวกับไฟล์และไดเร็กทอรีทั้งหมดที่ขึ้นต้นด้วยอักขระ "image" เช่น ไฟล์: "image.htm", "images.htm", ไดเร็กทอรี: "image", “ images1", "image34" ฯลฯ): User-agent: * Disallow: /image ความจริงก็คือตามค่าเริ่มต้นที่ส่วนท้ายของรายการจะมีเครื่องหมายดอกจันซึ่งจะแทนที่อักขระใด ๆ รวมถึงการขาดหายไปด้วย อ่านเกี่ยวกับเรื่องนี้ด้านล่าง
โดยใช้ อนุญาตคำสั่งเราอนุญาตให้เข้าถึงได้ เติมเต็ม ไม่อนุญาต อย่างดี ตัวอย่างเช่น ด้วยเงื่อนไขนี้ เราห้ามมิให้หุ่นยนต์ค้นหา Yandex ดาวน์โหลด (จัดทำดัชนี) ทุกอย่าง ยกเว้นหน้าเว็บที่ที่อยู่ขึ้นต้นด้วย /cgi-bin: User-agent: Yandex Allow: /cgi-bin Disallow: /
หรือตัวอย่างที่ชัดเจนของการใช้ชุดค่าผสม Allow และ Disallow:
ตัวแทนผู้ใช้: * Disallow: /catalog Allow: /catalog/auto
เมื่ออธิบายเส้นทางสำหรับคำสั่ง Allow-Disallow คุณสามารถใช้สัญลักษณ์ได้ "*" และ "$"ดังนั้นการกำหนดนิพจน์เชิงตรรกะบางอย่าง
1. เครื่องหมาย "*"(ดาว)หมายถึงลำดับอักขระใดๆ (รวมถึงว่างด้วย) ตัวอย่างต่อไปนี้ห้ามไม่ให้เครื่องมือค้นหาทั้งหมดจัดทำดัชนีไฟล์ที่มีนามสกุล “.php”: User-agent: * Disallow: *.php$
2. เหตุใดจึงต้องมีในตอนท้าย? เครื่องหมาย $? ความจริงก็คือตามตรรกะของการรวบรวมไฟล์ robots.txt เครื่องหมายดอกจันเริ่มต้นจะถูกเพิ่มที่ส่วนท้ายของแต่ละคำสั่ง (ไม่มีอยู่ แต่ดูเหมือนว่าจะอยู่ที่นั่น) ตัวอย่างเช่น เราเขียน: Disallow: /images
  หมายความว่านี่เป็นเช่นเดียวกับ:
  ไม่อนุญาต: /images*
  เหล่านั้น. กฎนี้ห้ามมิให้สร้างดัชนีของไฟล์ทั้งหมด (หน้าเว็บ รูปภาพ และไฟล์ประเภทอื่นๆ) ที่มีที่อยู่ขึ้นต้นด้วย /images แล้วตามด้วยสิ่งใดก็ตาม (ดูตัวอย่างด้านบน) ดังนั้น, สัญลักษณ์ $มันจะยกเลิกเครื่องหมายดอกจันเริ่มต้นในตอนท้าย ตัวอย่างเช่น:
  ไม่อนุญาต: /images$
  ป้องกันการจัดทำดัชนีของไฟล์ /images เท่านั้น แต่ไม่ใช่ /images.html หรือ /images/primer.html ในตัวอย่างแรก เราห้ามไม่ให้สร้างดัชนีเฉพาะไฟล์ที่ลงท้ายด้วย .php (มีนามสกุลดังกล่าว) เพื่อไม่ให้จับสิ่งที่ไม่จำเป็น:
  ไม่อนุญาต: *.php$

ในเอ็นจิ้นจำนวนมาก ผู้ใช้ (URL ที่มนุษย์สามารถอ่านได้) ในขณะที่ URL ที่สร้างโดยระบบจะมีเครื่องหมายคำถาม "?" ในที่อยู่ คุณสามารถใช้ประโยชน์จากสิ่งนี้และเขียนกฎต่อไปนี้ใน robots.txt: User-agent: * Disallow: /*?

เครื่องหมายดอกจันหลังเครื่องหมายคำถามบ่งบอกถึงตัวมันเอง แต่อย่างที่เราพบข้างต้น มันถูกบอกเป็นนัยแล้วในตอนท้าย ดังนั้น เราจะห้ามการจัดทำดัชนีหน้าการค้นหาและหน้าบริการอื่น ๆ ที่สร้างโดยเครื่องมือค้นหา ซึ่งโรบ็อตการค้นหาสามารถเข้าถึงได้ มันจะไม่ฟุ่มเฟือย เนื่องจาก CMS มักใช้เครื่องหมายคำถามเป็นตัวระบุเซสชัน ซึ่งอาจนำไปสู่การรวมหน้าที่ซ้ำกันในดัชนี

คำสั่งแผนผังไซต์และโฮสต์ (สำหรับ Yandex) ใน Robots.txt

เพื่อหลีกเลี่ยงปัญหาอันไม่พึงประสงค์กับมิเรอร์ไซต์ ก่อนหน้านี้แนะนำให้เพิ่มคำสั่งโฮสต์ให้กับ robots.txt ซึ่งชี้บอท Yandex ไปที่มิเรอร์หลัก

คำสั่งโฮสต์ - ระบุมิเรอร์หลักของไซต์สำหรับยานเดกซ์

ตัวอย่างเช่นก่อนหน้านี้หากคุณ ยังไม่ได้เปลี่ยนไปใช้โปรโตคอลที่ปลอดภัยจำเป็นต้องระบุใน Host ไม่ใช่ URL แบบเต็ม แต่เป็นชื่อโดเมน (ไม่มี http:// เช่น .. ru) หากคุณเปลี่ยนมาใช้ https แล้ว คุณจะต้องระบุ URL แบบเต็ม (เช่น https://myhost.ru)

เครื่องมือที่ยอดเยี่ยมสำหรับการต่อสู้กับเนื้อหาที่ซ้ำกัน - เสิร์ชเอ็นจิ้นจะไม่จัดทำดัชนีเพจหากมีการลงทะเบียน URL อื่นใน Canonical ตัวอย่างเช่น สำหรับหน้าดังกล่าวในบล็อกของฉัน (หน้าที่มีการแบ่งหน้า) Canonical ชี้ไปที่ https://site และไม่น่าจะมีปัญหากับชื่อที่ซ้ำกัน

แต่ฉันพูดนอกเรื่อง...
หากโครงการของคุณถูกสร้างขึ้นบนพื้นฐานของกลไกใดๆ ก็ตาม เนื้อหาที่ซ้ำกันจะเกิดขึ้นมีความเป็นไปได้สูงซึ่งหมายความว่าคุณต้องต่อสู้กับมัน รวมถึงความช่วยเหลือจากการแบนใน robots.txt และโดยเฉพาะอย่างยิ่งในเมตาแท็ก เพราะในกรณีแรก Google อาจเพิกเฉยต่อการแบน แต่จะทำไม่ได้อีกต่อไป เพื่อให้คำด่าเกี่ยวกับเมตาแท็ก ( นำขึ้นมาแบบนั้น)
ตัวอย่างเช่น ใน WordPress หน้าที่มีเนื้อหาคล้ายกันมากสามารถจัดทำดัชนีโดยเครื่องมือค้นหา หากอนุญาตให้จัดทำดัชนีทั้งเนื้อหาหมวดหมู่ เนื้อหาที่เก็บแท็ก และเนื้อหาที่เก็บถาวรชั่วคราว แต่หากใช้เมตาแท็ก Robots ที่อธิบายไว้ข้างต้น คุณสร้างการห้ามการเก็บถาวรแท็กและการเก็บถาวรชั่วคราว (คุณสามารถทิ้งแท็กไว้และห้ามไม่ให้มีการจัดทำดัชนีเนื้อหาของหมวดหมู่) เนื้อหาที่ซ้ำกันจะไม่เกิดขึ้น วิธีการทำเช่นนี้อธิบายไว้ในลิงก์ที่ให้ไว้ด้านบน (ไปยังปลั๊กอิน OlInSeoPak)
โดยสรุป ฉันจะบอกว่าไฟล์ Robots มีไว้สำหรับการตั้งค่ากฎสากลสำหรับการปฏิเสธการเข้าถึงไดเร็กทอรีของไซต์ทั้งหมด หรือไปยังไฟล์และโฟลเดอร์ที่ชื่อมีอักขระที่ระบุ (โดยมาสก์) คุณสามารถดูตัวอย่างการตั้งค่าข้อห้ามดังกล่าวได้ที่ด้านบน
ตอนนี้เรามาดูตัวอย่างเฉพาะของโรบอตที่ออกแบบมาสำหรับเอ็นจิ้นต่างๆ - Joomla, WordPress และ SMF โดยปกติแล้วทั้งสามตัวเลือกที่สร้างขึ้นสำหรับ CMS ที่แตกต่างกันจะมีความแตกต่างกันอย่างมาก (หากไม่รุนแรง) จริงอยู่พวกเขาทั้งหมดจะมีสิ่งหนึ่งที่เหมือนกันและช่วงเวลานี้เชื่อมต่อกับเครื่องมือค้นหา Yandex
เพราะ ใน RuNet Yandex มีน้ำหนักค่อนข้างมากจากนั้นเราต้องคำนึงถึงความแตกต่างของงานทั้งหมดและที่นี่เรา คำสั่งโฮสต์จะช่วยได้. มันจะระบุให้เครื่องมือค้นหานี้ทราบถึงมิเรอร์หลักของไซต์ของคุณอย่างชัดเจน
สำหรับสิ่งนี้ ขอแนะนำให้ใช้บล็อก User-agent แยกต่างหาก ซึ่งมีไว้สำหรับ Yandex เท่านั้น (User-agent: Yandex) เนื่องจากเครื่องมือค้นหาอื่นๆ อาจไม่เข้าใจโฮสต์ ดังนั้นการรวมไว้ในบันทึก User-agent ที่มีไว้สำหรับเครื่องมือค้นหาทั้งหมด (User-agent: *) อาจนำไปสู่ผลลัพธ์เชิงลบและการจัดทำดัชนีที่ไม่ถูกต้อง
เป็นการยากที่จะบอกว่าสถานการณ์จริงๆ เป็นอย่างไร เนื่องจากอัลกอริธึมการค้นหาเป็นสิ่งที่อยู่ในตัวมันเอง ดังนั้นจึงควรทำตามคำแนะนำจะดีกว่า แต่ในกรณีนี้ เราจะต้องทำซ้ำในคำสั่ง User-agent: Yandex กฎทั้งหมดที่เราตั้ง User-agent: * หากคุณปล่อยให้ User-agent: Yandex ว่างเปล่า Disallow: ด้วยวิธีนี้คุณจะอนุญาตให้ Yandex ไปที่ใดก็ได้และลากทุกอย่างลงในดัชนี
หุ่นยนต์สำหรับ WordPress
ฉันจะไม่ยกตัวอย่างไฟล์ที่นักพัฒนาแนะนำ คุณสามารถดูได้ด้วยตัวเอง บล็อกเกอร์จำนวนมากไม่ได้จำกัดบอท Yandex และ Google เลยในการเดินผ่านเนื้อหาของเอ็นจิ้น WordPress บ่อยที่สุดในบล็อกคุณจะพบโรบอตที่เต็มไปด้วยปลั๊กอินโดยอัตโนมัติ
แต่ในความคิดของฉัน เราควรจะช่วยค้นหาในงานที่ยากลำบากในการร่อนข้าวสาลีออกจากแกลบ ประการแรก Yandex และ Google bot จะต้องใช้เวลามากในการจัดทำดัชนีขยะนี้ และอาจไม่มีเวลาเหลือในการเพิ่มหน้าเว็บที่มีบทความใหม่ของคุณลงในดัชนี ประการที่สอง บอทที่คลานผ่านไฟล์กลไกขยะจะสร้างภาระเพิ่มเติมบนเซิร์ฟเวอร์ของโฮสต์ของคุณ ซึ่งไม่ดี
คุณสามารถดูไฟล์เวอร์ชันของฉันได้ด้วยตัวเอง เก่าแล้วไม่เปลี่ยนมานานแล้วแต่ผมพยายามยึดหลัก “อย่าซ่อม ของที่เสีย” อยู่ที่คุณจะตัดสินใจ จะใช้ ทำเอง หรือขโมยมาจาก คนอื่น ฉันยังถูกห้ามในการจัดทำดัชนีหน้าเว็บที่มีการแบ่งหน้าจนกระทั่งเมื่อไม่นานมานี้ (Disallow: */page/) แต่เมื่อเร็ว ๆ นี้ฉันได้ลบมันออก โดยอาศัย Canonical ซึ่งฉันเขียนไว้ข้างต้น
แต่โดยทั่วไปแล้ว ไฟล์ที่ถูกต้องเท่านั้นสำหรับ WordPress อาจไม่มีอยู่จริง แน่นอนคุณสามารถใช้ข้อกำหนดเบื้องต้นใด ๆ ในนั้นได้ แต่ใครบอกว่าสิ่งเหล่านั้นจะถูกต้อง มีตัวเลือกมากมายสำหรับ robots.txt ในอุดมคติบนอินเทอร์เน็ต
ฉันจะให้สุดขั้วสองประการ:
คุณสามารถค้นหาเมกะไฟล์พร้อมคำอธิบายโดยละเอียด (สัญลักษณ์ # แยกความคิดเห็นที่ควรลบในไฟล์จริงได้ดีกว่า): User-agent: * # กฎทั่วไปสำหรับโรบ็อต ยกเว้น Yandex และ Google # เพราะ สำหรับพวกเขากฎอยู่ด้านล่าง Disallow: /cgi-bin # โฟลเดอร์บนโฮสต์ Disallow: /? # พารามิเตอร์คำขอทั้งหมดบนหน้าหลัก ไม่อนุญาต: /wp- # ไฟล์ WP ทั้งหมด: /wp-json/, /wp-includes, /wp-content/plugins ไม่อนุญาต: /wp/ # หากมีไดเร็กทอรีย่อย /wp/ โดยที่ ติดตั้ง CMS แล้ว ( ถ้าไม่เช่นนั้น # กฎก็สามารถลบได้) Disallow: *?s= # search Disallow: *&s= # search Disallow: /search/ # search Disallow: /author/ # author archive Disallow: /users/ # ที่เก็บถาวรของผู้แต่ง Disallow: */ trackback # trackbacks การแจ้งเตือนในความคิดเห็นเกี่ยวกับการปรากฏตัวของลิงก์ # เปิดไปยังบทความ Disallow: */feed # ฟีดทั้งหมด Disallow: */rss # rss feed Disallow: */embed # all embeddings Disallow : */wlwmanifest.xml # ไฟล์ manifest xml Windows Live Writer (หากคุณไม่ได้ใช้ # กฎสามารถลบได้) Disallow: /xmlrpc.php # ไฟล์ WordPress API Disallow: *utm= # ลิงก์ที่มีแท็ก utm Disallow : *openstat= # ลิงก์ที่มีแท็ก openstat อนุญาต: */uploads # เปิดโฟลเดอร์พร้อมไฟล์ที่อัปโหลด User-agent: GoogleBot # กฎสำหรับ Google (ฉันไม่ทำซ้ำความคิดเห็น) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm= Disallow: *openstat= Allow: */uploads Allow: /*/*.js # เปิดสคริปต์ js ภายใน /wp - (/*/ - สำหรับลำดับความสำคัญ) อนุญาต: /*/*.css # เปิดไฟล์ css ภายใน /wp- (/*/ - สำหรับลำดับความสำคัญ) อนุญาต: /wp-*.png # รูปภาพในปลั๊กอิน, โฟลเดอร์แคชและอื่น ๆ อนุญาต: /wp-*.jpg # ภาพในปลั๊กอิน โฟลเดอร์แคช ฯลฯ อนุญาต: /wp-*.jpeg # รูปภาพในปลั๊กอิน โฟลเดอร์แคช ฯลฯ อนุญาต: /wp-*.gif # รูปภาพในปลั๊กอิน โฟลเดอร์แคช ฯลฯ อนุญาต: /wp-admin/admin-ajax.php # ใช้โดยปลั๊กอินเพื่อไม่ให้บล็อก JS และ CSS User-agent: Yandex # กฎสำหรับ Yandex (ฉันไม่ทำซ้ำความคิดเห็น) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php อนุญาต: */uploads อนุญาต: /*/*.js อนุญาต: /*/*.css อนุญาต: /wp-*.png อนุญาต: /wp-*.jpg อนุญาต: /wp-*.jpeg อนุญาต: /wp-*.gif อนุญาต: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Yandex ไม่แนะนำให้บล็อก # จากการจัดทำดัชนี แต่เป็นการลบ พารามิเตอร์แท็ก # Google ไม่รองรับกฎดังกล่าว Clean-Param: openstat # คล้ายกัน # ระบุไฟล์ Sitemap หนึ่งไฟล์ขึ้นไป (ไม่จำเป็นต้องทำซ้ำสำหรับ User-agent แต่ละตัว #) แผนผังไซต์ Google XML สร้างแผนผังไซต์ 2 รายการตามตัวอย่างด้านล่าง แผนผังไซต์: http://site.ru/sitemap.xml แผนผังไซต์: http://site.ru/sitemap.xml.gz # ระบุมิเรอร์หลักของไซต์ดังในตัวอย่างด้านล่าง (มี WWW / ไม่มี WWW หาก HTTPS # จากนั้นเขียนโปรโตคอล หากคุณต้องการระบุพอร์ต ให้ระบุ) คำสั่ง Host เข้าใจโดย # Yandex และ Mail.RU Google ไม่ได้คำนึงถึงมัน โฮสต์: www.site.ru
แต่คุณสามารถใช้ตัวอย่างแบบเรียบง่ายได้: User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Host: https://site.ru Sitemap: https://site. ru/sitemap.xml

ความจริงน่าจะอยู่ตรงกลาง นอกจากนี้ อย่าลืมเพิ่มเมตาแท็ก Robots สำหรับหน้า "พิเศษ" เช่น การใช้ปลั๊กอินที่ยอดเยี่ยม - นอกจากนี้ยังจะช่วยคุณตั้งค่า Canonical ด้วย
แก้ไข robots.txt สำหรับ Joomla
ตัวแทนผู้ใช้: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /ภาษา/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/
โดยหลักการแล้ว เกือบทุกอย่างจะถูกนำมาพิจารณาที่นี่และทำงานได้ดี สิ่งเดียวคือคุณควรเพิ่มกฎ User-agent: Yandex แยกต่างหากเพื่อแทรกคำสั่ง Host ซึ่งกำหนดมิเรอร์หลักสำหรับ Yandex และยังระบุเส้นทางไปยังไฟล์แผนผังไซต์ด้วย
ดังนั้นในรูปแบบสุดท้าย โรบ็อตที่ถูกต้องสำหรับ Joomla ในความคิดของฉันควรมีลักษณะดังนี้:
ตัวแทนผู้ใช้: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /ภาษา/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /component/tags* Disallow: /*mailto/ Disallow: /*.pdf Disallow : /*% ไม่อนุญาต: /index.php โฮสต์: vash_sait.ru (หรือ www.vash_sait.ru) ตัวแทนผู้ใช้: * อนุญาต: /*.css?*$ อนุญาต: /*.js?*$ อนุญาต: /* .jpg?*$ อนุญาต: /*.png?*$ ไม่อนุญาต: /ผู้ดูแลระบบ/ ไม่อนุญาต: /แคช/ ไม่อนุญาต: /รวม/ ไม่อนุญาต: /การติดตั้ง/ ไม่อนุญาต: /ภาษา/ ไม่อนุญาต: /ไลบรารี/ ไม่อนุญาต: /โมดูล/ ไม่อนุญาต : /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /*mailto/ Disallow: /*. pdf Disallow: /*% Disallow: /index.php Sitemap: http://path ไปยังแมปรูปแบบ XML ของคุณ
ใช่ โปรดทราบว่าในตัวเลือกที่สองจะมีคำสั่งอยู่ อนุญาต อนุญาตการจัดทำดัชนีสไตล์ สคริปต์ และรูปภาพ. สิ่งนี้เขียนขึ้นสำหรับ Google โดยเฉพาะ เนื่องจากบางครั้ง Googlebot บ่นว่าโรบอตห้ามสร้างดัชนีไฟล์เหล่านี้ เช่น จากโฟลเดอร์ที่มีธีมที่ใช้ เขายังขู่ว่าจะลดอันดับของเขาด้วยซ้ำ
ดังนั้นเราจึงอนุญาตให้จัดทำดัชนีทั้งหมดนี้ล่วงหน้าโดยใช้ Allow อย่างไรก็ตาม สิ่งเดียวกันนี้เกิดขึ้นในไฟล์ตัวอย่างสำหรับ WordPress

ขอให้โชคดี! พบกันเร็ว ๆ นี้ในหน้าของเว็บไซต์บล็อก
คุณอาจจะสนใจ
โดเมนที่มีและไม่มี www - ประวัติความเป็นมาของพวกเขา การใช้การเปลี่ยนเส้นทาง 301 เพื่อรวมเข้าด้วยกัน
มิเรอร์ หน้าที่ซ้ำกัน และที่อยู่ URL - การตรวจสอบเว็บไซต์ของคุณหรือสิ่งที่อาจเป็นสาเหตุของความล้มเหลวในระหว่างการโปรโมต SEO SEO สำหรับผู้เริ่มต้น: 10 ประเด็นหลักในการตรวจสอบเว็บไซต์เชิงเทคนิค
Bing webmaster - ศูนย์กลางสำหรับเว็บมาสเตอร์จากเครื่องมือค้นหา Bing
Google ผู้ดูแลเว็บ - เครื่องมือคอนโซลการค้นหา (Google ผู้ดูแลเว็บ)
วิธีหลีกเลี่ยงข้อผิดพลาดทั่วไปเมื่อโปรโมตเว็บไซต์
วิธีโปรโมตเว็บไซต์ด้วยตัวเองโดยปรับปรุงการเพิ่มประสิทธิภาพคำหลักภายในและลบเนื้อหาที่ซ้ำกัน
Yandex Webmaster - การจัดทำดัชนี ลิงก์ การเปิดเผยเว็บไซต์ การเลือกภูมิภาค การประพันธ์ และการตรวจสอบไวรัสใน Yandex Webmaster

เมื่อเยี่ยมชมไซต์ โรบ็อตการค้นหาจะใช้ทรัพยากรจำนวนจำกัดในการจัดทำดัชนี นั่นคือ โรบ็อตการค้นหาสามารถดาวน์โหลดหน้าเว็บจำนวนหนึ่งได้ในการเข้าชมครั้งเดียว ขึ้นอยู่กับความถี่ในการอัปเดต ปริมาณ จำนวนเอกสาร และอื่นๆ อีกมากมาย โรบ็อตอาจมาบ่อยขึ้นและดาวน์โหลดหน้ามากขึ้น

ยิ่งมีการดาวน์โหลดหน้าเว็บบ่อยขึ้น ข้อมูลจากไซต์ของคุณก็จะเข้าสู่ผลการค้นหาเร็วขึ้น นอกจากความจริงที่ว่าหน้าเว็บจะปรากฏในการค้นหาเร็วขึ้นแล้ว การเปลี่ยนแปลงเนื้อหาของเอกสารก็จะมีผลเร็วขึ้นเช่นกัน

การจัดทำดัชนีไซต์อย่างรวดเร็ว

การจัดทำดัชนีหน้าเว็บไซต์อย่างรวดเร็วช่วยต่อสู้กับการขโมยเนื้อหาที่ไม่ซ้ำใครด้วยความสดใหม่และความเกี่ยวข้อง แต่สิ่งที่สำคัญที่สุด การจัดทำดัชนีที่รวดเร็วยิ่งขึ้นทำให้คุณสามารถติดตามว่าการเปลี่ยนแปลงบางอย่างส่งผลต่อตำแหน่งของเว็บไซต์ในผลการค้นหาอย่างไร

การจัดทำดัชนีไซต์ไม่ดีและช้า

เหตุใดเว็บไซต์จึงได้รับการจัดทำดัชนีไม่ดี อาจมีสาเหตุหลายประการ และนี่คือสาเหตุหลักที่ทำให้การจัดทำดัชนีเว็บไซต์ช้า

หน้าเว็บไซต์โหลดช้า. นี่อาจทำให้ไซต์ถูกแยกออกจากดัชนีโดยสิ้นเชิง
เว็บไซต์ไม่ค่อยมีการอัพเดต. เหตุใดโรบ็อตจึงมักจะมาที่ไซต์ซึ่งมีหน้าใหม่ปรากฏขึ้นเดือนละครั้ง
เนื้อหาที่ไม่ซ้ำใคร. หากไซต์มี (บทความ รูปภาพ) เครื่องมือค้นหาจะลดความไว้วางใจ (ความไว้วางใจ) ในไซต์ของคุณ และลดการใช้ทรัพยากรในการจัดทำดัชนี
จำนวนหน้าจำนวนมาก. หากไซต์มีหลายหน้าและไม่มี การจัดทำดัชนีหรือจัดทำดัชนีใหม่ทุกหน้าของไซต์อาจใช้เวลานานมาก
โครงสร้างไซต์ที่ซับซ้อน. โครงสร้างเว็บไซต์ที่สร้างความสับสนและไฟล์แนบจำนวนมากทำให้จัดทำดัชนีหน้าเว็บไซต์ได้ยาก
หน้าพิเศษมากมาย. ทุกไซต์มีหน้า Landing Page ซึ่งมีเนื้อหาคงที่ ไม่ซ้ำใคร และมีประโยชน์สำหรับผู้ใช้ และมีหน้าด้านข้าง เช่น หน้าเข้าสู่ระบบหรือหน้าตัวกรอง หากมีหน้าดังกล่าวอยู่ ก็มักจะมีหน้าจำนวนมาก แต่ไม่ใช่ทุกหน้าที่ได้รับการจัดทำดัชนี และหน้าที่แข่งขันกับหน้า Landing Page หน้าเว็บเหล่านี้ทั้งหมดได้รับการจัดทำดัชนีใหม่เป็นประจำ โดยใช้ทรัพยากรที่มีอยู่อย่างจำกัดซึ่งจัดสรรไว้เพื่อสร้างดัชนีเว็บไซต์ของคุณ
หน้าไดนามิก. หากมีหน้าเว็บบนไซต์ที่เนื้อหาไม่ได้ขึ้นอยู่กับพารามิเตอร์แบบไดนามิก (ตัวอย่าง: site.ru/page.html?lol=1&wow=2&bom=3) เป็นผลให้มีหน้า Landing Page ซ้ำหลายครั้ง site.ru/page .html อาจปรากฏขึ้น

มีสาเหตุอื่นๆ ที่ทำให้การจัดทำดัชนีไซต์ไม่ดี อย่างไรก็ตาม ข้อผิดพลาดที่พบบ่อยที่สุดคือ

ลบทุกสิ่งที่ไม่จำเป็นออกจากการจัดทำดัชนี

มีโอกาสมากมายในการใช้ทรัพยากรที่เครื่องมือค้นหาจัดสรรสำหรับการจัดทำดัชนีไซต์อย่างมีเหตุผล และเป็น robots.txt ที่เปิดโอกาสให้จัดการการจัดทำดัชนีไซต์ได้อย่างกว้างขวาง

การใช้คำสั่ง Allow, Disallow, Clean-param และคำสั่งอื่นๆ ช่วยให้คุณสามารถกระจายความสนใจของโรบ็อตการค้นหาได้อย่างมีประสิทธิภาพ แต่ยังช่วยลดภาระบนไซต์ได้อย่างมาก

ขั้นแรก คุณต้องแยกทุกสิ่งที่ไม่จำเป็นออกจากการจัดทำดัชนีโดยใช้คำสั่ง Disallow

ตัวอย่างเช่น ปิดการใช้งานหน้าเข้าสู่ระบบและการลงทะเบียน:

ไม่อนุญาต: /login ไม่อนุญาต: /register

มาปิดการใช้งานการจัดทำดัชนีแท็ก:

ไม่อนุญาต: /tag

หน้าไดนามิกบางหน้า:

ไม่อนุญาต: /*?lol=1

หรือหน้าไดนามิกทั้งหมด:

ไม่อนุญาต: /*?*

หรือลองกำจัดหน้าที่มีพารามิเตอร์แบบไดนามิก:

พารามิเตอร์ที่สะอาด: lol&wow&bom /

ในหลายไซต์ จำนวนหน้าที่โรบอตพบอาจแตกต่างจากจำนวนหน้าในการค้นหา 3 ครั้งขึ้นไป นั่นคือมากกว่า 60% ของหน้าเว็บไซต์ไม่ได้มีส่วนร่วมในการค้นหาและเป็นบัลลาสต์ที่ต้องเข้าสู่การค้นหาหรือกำจัดมันออกไป ด้วยการยกเว้นหน้าที่ไม่ใช่เป้าหมายและทำให้จำนวนหน้าในการค้นหาใกล้ถึง 100% คุณจะเห็นการเพิ่มขึ้นอย่างมากในความเร็วของการจัดทำดัชนีไซต์ ตำแหน่งในผลการค้นหาที่เพิ่มขึ้น และปริมาณการเข้าชมที่เพิ่มขึ้น

รายละเอียดเพิ่มเติม เกี่ยวกับการจัดทำดัชนีไซต์ผลกระทบของการจัดทำดัชนีต่อผลการค้นหา หน้าเว็บไซต์ และอื่นๆ วิธีเร่งความเร็วในการจัดทำดัชนีไซต์และ สาเหตุของการจัดทำดัชนีไซต์ไม่ดีอ่านในโพสต์ต่อไปนี้ ในระหว่างนี้.

ทิ้งบัลลาสต์ที่ไม่จำเป็นออกไปแล้วขึ้นไปด้านบนอย่างรวดเร็ว

วัตถุประสงค์ของคู่มือนี้คือเพื่อช่วยให้ผู้ดูแลเว็บและผู้ดูแลระบบใช้ robots.txt

การแนะนำ

มาตรฐานการยกเว้นของหุ่นยนต์นั้นมีพื้นฐานง่ายมาก กล่าวโดยย่อมันทำงานดังนี้:

เมื่อโรบอตที่ปฏิบัติตามมาตรฐานเยี่ยมชมไซต์ ขั้นแรกโรบอตจะขอไฟล์ชื่อ “/robots.txt” หากพบไฟล์ดังกล่าว โรบอตจะค้นหาคำแนะนำในการห้ามจัดทำดัชนีบางส่วนของไซต์

ตำแหน่งที่จะวางไฟล์ robots.txt

โรบ็อตเพียงขอ URL “/robots.txt” บนไซต์ของคุณ ไซต์ในกรณีนี้คือโฮสต์เฉพาะบนพอร์ตเฉพาะ

URL ของไซต์	URL ไฟล์ Robots.txt
http://www.w3.org/	http://www.w3.org/robots.txt
http://www.w3.org:80/	http://www.w3.org:80/robots.txt
http://www.w3.org:1234/	http://www.w3.org:1234/robots.txt
http://w3.org/	http://w3.org/robots.txt

ไซต์มีไฟล์ “/robots.txt” ได้เพียงไฟล์เดียวเท่านั้น ตัวอย่างเช่น คุณไม่ควรวางไฟล์ robots.txt ไว้ในไดเร็กทอรีย่อยของผู้ใช้ เพราะโรบ็อตจะไม่ค้นหาไฟล์เหล่านั้นที่นั่น หากคุณต้องการสร้างไฟล์ robots.txt ในไดเรกทอรีย่อย คุณต้องมีวิธีรวบรวมไฟล์เหล่านั้นโดยทางโปรแกรมให้เป็นไฟล์ robots.txt ไฟล์เดียวซึ่งอยู่ที่รากของไซต์ คุณสามารถใช้ได้ .

โปรดจำไว้ว่า URL ต้องคำนึงถึงตัวพิมพ์เล็กและตัวพิมพ์ใหญ่ และชื่อไฟล์ “/robots.txt” จะต้องเขียนด้วยตัวพิมพ์เล็กทั้งหมด

ตำแหน่ง robots.txt ไม่ถูกต้อง
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt	ไฟล์ไม่ได้อยู่ที่รากของไซต์
ftp://ftp.w3.com/robots.txt	โรบ็อตไม่สร้างดัชนี ftp
http://www.w3.org/Robots.txt	ชื่อไฟล์ไม่ใช่ตัวพิมพ์เล็ก

อย่างที่คุณเห็น ไฟล์ robots.txt ควรวางไว้ที่รากของไซต์โดยเฉพาะ

สิ่งที่ต้องเขียนในไฟล์ robots.txt

ไฟล์ robots.txt มักจะมีเนื้อหาดังนี้:

ตัวแทนผู้ใช้: *
ไม่อนุญาต: /cgi-bin/
ไม่อนุญาต: /tmp/
ไม่อนุญาต: /~โจ/

ในตัวอย่างนี้ ห้ามสร้างดัชนีของสามไดเร็กทอรี

โปรดทราบว่าแต่ละไดเร็กทอรีจะแสดงรายการในบรรทัดแยกกัน คุณไม่สามารถเขียน "Disallow: /cgi-bin/ /tmp/" ได้ คุณไม่สามารถแยกคำสั่ง Disallow หรือ User-agent ออกเป็นหลายบรรทัดได้เนื่องจาก ตัวแบ่งบรรทัดใช้เพื่อแยกคำสั่งออกจากกัน

ไม่สามารถใช้นิพจน์ทั่วไปและไวด์การ์ดได้เช่นกัน “เครื่องหมายดอกจัน” (*) ในคำสั่ง User-agent หมายถึง “โรบ็อตใดๆ” ไม่รองรับคำสั่ง เช่น “Disallow: *.gif” หรือ “User-agent: Ya*”

คำแนะนำเฉพาะใน robots.txt ขึ้นอยู่กับเว็บไซต์ของคุณและสิ่งที่คุณต้องการป้องกันไม่ให้มีการจัดทำดัชนี นี่คือตัวอย่างบางส่วน:

บล็อกทั้งไซต์ไม่ให้ถูกจัดทำดัชนีโดยโรบอตทั้งหมด

ตัวแทนผู้ใช้: *
ไม่อนุญาต: /

อนุญาตให้โรบอตทั้งหมดจัดทำดัชนีทั้งไซต์

ตัวแทนผู้ใช้: *
ไม่อนุญาต:

หรือคุณสามารถสร้างไฟล์เปล่า “/robots.txt” ก็ได้

บล็อกไดเร็กทอรีเพียงไม่กี่รายการจากการจัดทำดัชนี

ตัวแทนผู้ใช้: *
ไม่อนุญาต: /cgi-bin/
ไม่อนุญาต: /tmp/
ไม่อนุญาต: /ส่วนตัว/

ป้องกันการจัดทำดัชนีไซต์สำหรับหุ่นยนต์เพียงตัวเดียว

ตัวแทนผู้ใช้: BadBot
ไม่อนุญาต: /

อนุญาตให้โรบอตตัวหนึ่งจัดทำดัชนีไซต์และปฏิเสธตัวอื่นๆ ทั้งหมด

ตัวแทนผู้ใช้: Yandex
ไม่อนุญาต:

ตัวแทนผู้ใช้: *
ไม่อนุญาต: /

ปฏิเสธไฟล์ทั้งหมด ยกเว้นไฟล์เดียวจากการจัดทำดัชนี

เรื่องนี้ค่อนข้างยากเพราะว่า... ไม่มีคำสั่ง "อนุญาต" แต่คุณสามารถย้ายไฟล์ทั้งหมดได้ ยกเว้นไฟล์ที่คุณต้องการอนุญาตให้จัดทำดัชนีลงในไดเรกทอรีย่อยและป้องกันไม่ให้มีการจัดทำดัชนี:

ตัวแทนผู้ใช้: *
ไม่อนุญาต: /docs/

หรือคุณสามารถห้ามไฟล์ทั้งหมดที่ถูกห้ามไม่ให้จัดทำดัชนี:

ตัวแทนผู้ใช้: *
ไม่อนุญาต: /private.html
ไม่อนุญาต: /foo.html
ไม่อนุญาต: /bar.html

ไฟล์ robots.txt— ไฟล์ข้อความในรูปแบบ .txt ที่จำกัดการเข้าถึงเนื้อหาบนเซิร์ฟเวอร์ http ของโรบ็อตการค้นหา ยังไง คำนิยาม Robots.txt- นี่ มาตรฐานข้อยกเว้นของหุ่นยนต์ซึ่งได้รับการรับรองโดย W3C เมื่อวันที่ 30 มกราคม พ.ศ. 2537 และเครื่องมือค้นหาส่วนใหญ่ใช้งานโดยสมัครใจ ไฟล์ robots.txt ประกอบด้วยชุดคำสั่งสำหรับโรบ็อตการค้นหาเพื่อป้องกันไม่ให้ไฟล์ หน้าเว็บ หรือไดเรกทอรีบางรายการบนไซต์ถูกจัดทำดัชนี ลองพิจารณาคำอธิบายของ robots.txt สำหรับกรณีที่ไซต์ไม่ได้จำกัดการเข้าถึงของโรบ็อตในไซต์

ตัวอย่าง robots.txt ง่ายๆ:

ตัวแทนผู้ใช้: * อนุญาต: /

โรบ็อตที่นี่อนุญาตให้สร้างดัชนีของทั้งไซต์ได้อย่างสมบูรณ์

ต้องอัปโหลดไฟล์ robots.txt ไปยังไดเรกทอรีรากของเว็บไซต์ของคุณเพื่อให้มีจำหน่ายที่:

Your_site.ru/robots.txt

การวางไฟล์ robots.txt ไว้ที่รากของไซต์มักจะต้องมีการเข้าถึง FTP. อย่างไรก็ตาม ระบบการจัดการ (CMS) บางระบบทำให้สามารถสร้าง robots.txt ได้โดยตรงจากแผงควบคุมไซต์หรือผ่านตัวจัดการ FTP ในตัว

หากไฟล์พร้อมใช้งาน คุณจะเห็นเนื้อหาของ robots.txt ในเบราว์เซอร์

robots.txt มีไว้เพื่ออะไร

Roots.txt สำหรับไซต์เป็นสิ่งสำคัญ ทำไมเราต้องมี robots.txt?? ตัวอย่างเช่นใน จำเป็นต้องมี SEO robots.txt เพื่อแยกออกจากหน้าจัดทำดัชนีที่ไม่มีเนื้อหาที่เป็นประโยชน์และอื่นๆ อีกมากมาย. อย่างไร อะไร ทำไม และเหตุใดจึงได้รับการอธิบายไว้ในบทความเกี่ยวกับเรื่องนี้แล้ว เราจะไม่พูดถึงเรื่องนี้ที่นี่ ไฟล์ robots.txt จำเป็นหรือไม่ไปยังทุกไซต์? ใช่และไม่. หากการใช้ robots.txt หมายถึงการยกเว้นหน้าเว็บจากการค้นหา ดังนั้นสำหรับไซต์ขนาดเล็กที่มีโครงสร้างที่เรียบง่ายและหน้าเว็บแบบคงที่ การยกเว้นดังกล่าวอาจไม่จำเป็น อย่างไรก็ตาม บางส่วนอาจมีประโยชน์สำหรับไซต์ขนาดเล็ก คำสั่ง robots.txtเช่น คำสั่ง Host หรือ Sitemap แต่มีรายละเอียดเพิ่มเติมด้านล่าง

วิธีสร้าง robots.txt

เนื่องจาก robots.txt เป็นไฟล์ข้อความและถึง สร้างไฟล์ robots.txtคุณสามารถใช้โปรแกรมแก้ไขข้อความใดก็ได้ เป็นต้น แผ่นจดบันทึก. เมื่อคุณเปิดเอกสารข้อความใหม่ คุณได้เริ่มสร้าง robots.txt แล้ว สิ่งที่เหลืออยู่คือการเขียนเนื้อหา ขึ้นอยู่กับความต้องการของคุณ และบันทึกเป็น ไฟล์ข้อความที่เรียกว่า robots ในรูปแบบ txt. ทุกอย่างง่ายดาย และการสร้างไฟล์ robots.txt ไม่ควรทำให้เกิดปัญหาแม้แต่กับผู้เริ่มต้น ด้านล่างนี้ ฉันจะแสดงให้คุณเห็นถึงวิธีการเขียน robots.txt และสิ่งที่ควรเขียนในโรบ็อตโดยใช้ตัวอย่าง

สร้าง robots.txt ออนไลน์

ตัวเลือกสำหรับคนขี้เกียจ - สร้างโรบ็อตออนไลน์และดาวน์โหลดไฟล์ robots.txtอยู่ในรูปแบบที่เสร็จสมบูรณ์แล้ว การสร้าง robots txt ออนไลน์นำเสนอบริการมากมาย ทางเลือกเป็นของคุณ สิ่งสำคัญคือต้องเข้าใจอย่างชัดเจนว่าสิ่งใดเป็นสิ่งต้องห้ามและสิ่งใดจะได้รับอนุญาตมิฉะนั้น การสร้างไฟล์ robots.txt ออนไลน์อาจกลายเป็นโศกนาฏกรรมได้ซึ่งอาจแก้ไขได้ยากในภายหลัง โดยเฉพาะอย่างยิ่งหากการค้นหามีบางสิ่งที่ควรปิดไว้ โปรดใช้ความระมัดระวัง - ตรวจสอบไฟล์โรบ็อตของคุณก่อนที่จะอัปโหลดไปยังไซต์ ยัง ไฟล์ robots.txt ที่กำหนดเองสะท้อนถึงโครงสร้างของข้อจำกัดได้แม่นยำกว่าโครงสร้างที่สร้างขึ้นโดยอัตโนมัติและดาวน์โหลดจากไซต์อื่น อ่านต่อเพื่อทราบว่าควรใส่ใจเป็นพิเศษเมื่อแก้ไข robots.txt

การแก้ไข robots.txt

เมื่อคุณสร้างไฟล์ robots.txt ทางออนไลน์หรือด้วยมือของคุณเองแล้ว คุณก็สามารถทำได้ แก้ไข robots.txt. คุณสามารถเปลี่ยนเนื้อหาได้ตามที่คุณต้องการ สิ่งสำคัญคือต้องปฏิบัติตามกฎและไวยากรณ์ของ robots.txt ขณะทำงานบนไซต์ ไฟล์ robots อาจมีการเปลี่ยนแปลง และหากคุณแก้ไข robots.txt อย่าลืมอัปโหลดไฟล์เวอร์ชันปัจจุบันที่อัปเดตพร้อมการเปลี่ยนแปลงทั้งหมดที่เกิดขึ้นกับไซต์ ต่อไปเรามาดูกฎสำหรับการตั้งค่าไฟล์เพื่อให้เราทราบ วิธีเปลี่ยนไฟล์ robots.txtและ “อย่าสับไม้”

การตั้งค่า robots.txt อย่างถูกต้อง

การตั้งค่า robots.txt อย่างถูกต้องช่วยให้คุณหลีกเลี่ยงข้อมูลส่วนตัวไม่ให้เข้าสู่ผลการค้นหาของเครื่องมือค้นหาสำคัญ ๆ อย่างไรก็ตามก็ไม่ควรลืมสิ่งนั้น คำสั่ง robots.txt เป็นเพียงแนวทางในการดำเนินการ ไม่ใช่การป้องกัน. โรบ็อตจากเครื่องมือค้นหาที่เชื่อถือได้ เช่น Yandex หรือ Google ทำตามคำแนะนำของ robots.txt แต่โรบ็อตตัวอื่นสามารถเพิกเฉยได้ง่าย ความเข้าใจที่ถูกต้องและการประยุกต์ใช้ robots.txt คือกุญแจสำคัญในการได้รับผลลัพธ์

เข้าใจไหม วิธีสร้าง robots txt ที่ถูกต้องก่อนอื่นคุณต้องเข้าใจกฎทั่วไป ไวยากรณ์ และคำสั่งของไฟล์ robots.txt

robots.txt ที่ถูกต้องจะเริ่มต้นด้วยคำสั่ง User-agentซึ่งบ่งชี้ถึงคำสั่งเฉพาะของหุ่นยนต์ตัวใดที่ส่งถึง

ตัวอย่างของ User-agent ใน robots.txt:

# ระบุคำสั่งสำหรับหุ่นยนต์ทั้งหมดในเวลาเดียวกัน User-agent: * # ระบุคำสั่งสำหรับหุ่นยนต์ Yandex ทั้งหมด User-agent: Yandex # ระบุคำสั่งสำหรับหุ่นยนต์จัดทำดัชนี Yandex หลักเท่านั้น User-agent: YandexBot # ระบุคำสั่งสำหรับผู้ใช้หุ่นยนต์ Google ทั้งหมด -ตัวแทน: Googlebot

โปรดทราบว่าดังกล่าว การตั้งค่าไฟล์ robots.txtบอกให้หุ่นยนต์ใช้คำสั่งที่ตรงกับชื่อตัวแทนผู้ใช้เท่านั้น

ตัวอย่าง robots.txt ที่มี User-agent หลายครั้ง:

# จะถูกใช้งานโดยโรบ็อต Yandex ทั้งหมด User-agent: Yandex Disallow: /*utm_ # จะถูกใช้งานโดยโรบ็อตของ Google ทั้งหมด User-agent: Googlebot Disallow: /*utm_ # จะถูกใช้โดยโรบ็อตทั้งหมด ยกเว้นหุ่นยนต์ Yandex และ Google User- ตัวแทน: * อนุญาต: / *utm_

คำสั่งตัวแทนผู้ใช้สร้างเฉพาะคำสั่งให้กับหุ่นยนต์เฉพาะ และทันทีหลังจากคำสั่ง User-agent ควรมีคำสั่งหรือคำสั่งโดยตรงที่ระบุเงื่อนไขสำหรับหุ่นยนต์ที่เลือก ตัวอย่างด้านบนใช้คำสั่ง "Disallow" ซึ่งมีค่าเป็น "/*utm_" ดังนั้นเราจึงปิดทุกอย่าง การตั้งค่า robots.txt อย่างถูกต้องจะห้ามไม่ให้มีการขึ้นบรรทัดใหม่ระหว่างคำสั่ง "User-agent", "Disallow" และคำสั่งที่อยู่หลัง "Disallow" ภายใน "User-agent" ปัจจุบัน

ตัวอย่างการป้อนบรรทัดที่ไม่ถูกต้องใน robots.txt:

ตัวอย่างการป้อนบรรทัดที่ถูกต้องใน robots.txt:

ตัวแทนผู้ใช้: Yandex ไม่อนุญาต: /*utm_ อนุญาต: /*id= ตัวแทนผู้ใช้: * ไม่อนุญาต: /*utm_ อนุญาต: /*id=

ดังที่เห็นได้จากตัวอย่าง คำแนะนำใน robots.txt จะอยู่ในรูปแบบบล็อกซึ่งแต่ละคำสั่งจะมีคำสั่งสำหรับหุ่นยนต์เฉพาะหรือสำหรับหุ่นยนต์ทั้งหมด "*"

สิ่งสำคัญคือต้องตรวจสอบให้แน่ใจว่าคำสั่งใน robots.txt มีลำดับและการเรียงลำดับที่ถูกต้องเมื่อใช้คำสั่ง เช่น "Disallow" และ "Allow" ร่วมกัน คำสั่ง "อนุญาต" เป็นคำสั่งอนุญาต และอยู่ตรงข้ามกับคำสั่ง "Disallow" ของ robots.txt ซึ่งเป็นคำสั่งห้าม

ตัวอย่างการใช้คำสั่งร่วมกันใน robots.txt:

ตัวแทนผู้ใช้: * อนุญาต: /blog/page ไม่อนุญาต: /blog

ตัวอย่างนี้ป้องกันไม่ให้โรบอตทั้งหมดจัดทำดัชนีทุกหน้าที่ขึ้นต้นด้วย “/blog” แต่อนุญาตให้ทุกหน้าที่ขึ้นต้นด้วย “/blog/page” ได้รับการจัดทำดัชนี

ตัวอย่างก่อนหน้าของ robots.txt ในการจัดเรียงที่ถูกต้อง:

User-agent: * Disallow: /blog อนุญาต: /blog/page

ขั้นแรกเราแบนส่วนทั้งหมด จากนั้นจึงอนุญาตบางส่วน

อื่น ตัวอย่าง robots.txt ที่ถูกต้องโดยมีแนวทางร่วมกัน:

ตัวแทนผู้ใช้: * อนุญาต: / ไม่อนุญาต: /blog อนุญาต: /blog/page

โปรดใส่ใจกับลำดับคำสั่งที่ถูกต้องใน robots.txt นี้

คำสั่ง "อนุญาต" และ "ไม่อนุญาต" สามารถระบุได้โดยไม่ต้องใช้พารามิเตอร์ ซึ่งในกรณีนี้ค่าจะถูกตีความกลับกันกับพารามิเตอร์ "/"

ตัวอย่างคำสั่ง “Disallow/Allow” ที่ไม่มีพารามิเตอร์:

User-agent: * Disallow: # เทียบเท่ากับ Allow: / Disallow: /blog Allow: /blog/page

วิธีสร้าง robots.txt ที่ถูกต้องและวิธีการใช้การตีความคำสั่งนั้นเป็นทางเลือกของคุณ ตัวเลือกทั้งสองจะถูกต้อง สิ่งสำคัญคืออย่าสับสน

ในการเขียน robots.txt อย่างถูกต้อง จำเป็นต้องระบุลำดับความสำคัญอย่างถูกต้องในพารามิเตอร์ของคำสั่ง และสิ่งที่โรบ็อตห้ามดาวน์โหลด เราจะดูการใช้คำสั่ง "Disallow" และ "Allow" อย่างครบถ้วนด้านล่าง แต่ตอนนี้เราจะดูที่ไวยากรณ์ของ robots.txt การรู้ไวยากรณ์ของ robots.txt จะทำให้คุณใกล้ชิดยิ่งขึ้น สร้าง robots txt ที่สมบูรณ์แบบด้วยมือของคุณเอง.

ไวยากรณ์ robots.txt

โรบ็อตเครื่องมือค้นหาทำตามคำสั่ง robots.txt โดยสมัครใจ- มาตรฐานสำหรับข้อยกเว้นของโรบ็อต แต่ไม่ใช่เครื่องมือค้นหาทั้งหมดที่ใช้ไวยากรณ์ของ robots.txt ในลักษณะเดียวกัน ไฟล์ robots.txt มีไวยากรณ์ที่กำหนดไว้อย่างเคร่งครัด แต่ในขณะเดียวกัน เขียน robots txtไม่ยากเพราะโครงสร้างเรียบง่ายและเข้าใจง่าย

นี่คือรายการกฎง่ายๆ ที่คุณจะกำจัดออกไป ข้อผิดพลาดทั่วไปของ robots.txt:

แต่ละคำสั่งเริ่มต้นในบรรทัดใหม่
อย่าระบุมากกว่าหนึ่งคำสั่งในหนึ่งบรรทัด
อย่าเว้นวรรคที่ต้นบรรทัด
พารามิเตอร์คำสั่งต้องอยู่ในบรรทัดเดียว
ไม่จำเป็นต้องใส่พารามิเตอร์คำสั่งในเครื่องหมายคำพูด
พารามิเตอร์คำสั่งไม่จำเป็นต้องมีอัฒภาคต่อท้าย
คำสั่งใน robots.txt ถูกระบุในรูปแบบ - [Directive_name]:[Optional Space][value][Option Space];
อนุญาตให้แสดงความคิดเห็นใน robots.txt หลังเครื่องหมายแฮช #;
การขึ้นบรรทัดใหม่สามารถตีความได้ว่าเป็นจุดสิ้นสุดของคำสั่ง User-agent
คำสั่ง "Disallow:" (มีค่าว่าง) เทียบเท่ากับ "Allow: /" - อนุญาตทุกอย่าง
คำสั่ง "อนุญาต" และ "ไม่อนุญาต" ระบุพารามิเตอร์ไม่เกินหนึ่งตัว
ชื่อของไฟล์ robots.txt ไม่อนุญาตให้ใช้อักษรตัวพิมพ์ใหญ่ การสะกดชื่อไฟล์ไม่ถูกต้องคือ Robots.txt หรือ ROBOTS.TXT
การเขียนชื่อของคำสั่งและพารามิเตอร์ด้วยตัวพิมพ์ใหญ่ถือเป็นรูปแบบที่ไม่ดี และแม้ว่า robots.txt จะไม่คำนึงถึงตัวพิมพ์เล็กและตัวพิมพ์ใหญ่ตามมาตรฐาน แต่ชื่อไฟล์และไดเร็กทอรีก็มักจะคำนึงถึงตัวพิมพ์เล็กและตัวพิมพ์ใหญ่
หากพารามิเตอร์คำสั่งเป็นไดเรกทอรี ชื่อไดเรกทอรีจะขึ้นต้นด้วยเครื่องหมายทับ “/” เสมอ เช่น Disallow: /category
robots.txt ที่มีขนาดใหญ่เกินไป (มากกว่า 32 KB) ถือว่าได้รับอนุญาตโดยสมบูรณ์ ซึ่งเทียบเท่ากับ “Disallow:”;
Robots.txt ที่ไม่สามารถเข้าถึงได้ไม่ว่าด้วยเหตุผลใดก็ตามสามารถตีความได้ว่าได้รับอนุญาตโดยสมบูรณ์
หาก robots.txt ว่างเปล่า จะถือว่าได้รับอนุญาตโดยสมบูรณ์
จากการแสดงรายการคำสั่ง "User-agent" หลายรายการโดยไม่มีการป้อนบรรทัดว่าง คำสั่ง "User-agent" ที่ตามมาทั้งหมดยกเว้นคำสั่งแรกอาจถูกละเว้น
ไม่อนุญาตให้ใช้อักขระจากตัวอักษรประจำชาติใน robots.txt

เนื่องจากเครื่องมือค้นหาที่แตกต่างกันอาจตีความไวยากรณ์ของ robots.txt แตกต่างกัน จึงสามารถละเว้นบางประโยคได้ ตัวอย่างเช่น หากคุณป้อนคำสั่ง "User-agent" หลายรายการโดยไม่ขึ้นบรรทัดใหม่ Yandex จะยอมรับคำสั่ง "User-agent" ทั้งหมดอย่างถูกต้อง เนื่องจาก Yandex เลือกบันทึกตามการมีอยู่ของคำสั่งดังกล่าวในบรรทัด "User-agent"

หุ่นยนต์ควรระบุเฉพาะสิ่งที่จำเป็นเท่านั้นและไม่มีอะไรฟุ่มเฟือย อย่าคิดนะ วิธีเขียนทุกอย่างใน robots txtสิ่งที่เป็นไปได้และจะเติมได้อย่างไร หุ่นยนต์ในอุดมคติ txtเป็นอันที่มีบรรทัดน้อยแต่มีความหมายมากกว่า "ความกะทัดรัดคือจิตวิญญาณแห่งปัญญา" สำนวนนี้มีประโยชน์ที่นี่

วิธีตรวจสอบ robots.txt

เพื่อที่จะ ตรวจสอบ robots.txtหากต้องการตรวจสอบความถูกต้องของไวยากรณ์และโครงสร้างของไฟล์ คุณสามารถใช้หนึ่งในบริการออนไลน์ได้ ตัวอย่างเช่น Yandex และ Google เสนอบริการของตนเองสำหรับผู้ดูแลเว็บ ซึ่งรวมถึง การวิเคราะห์ robots.txt:

กำลังตรวจสอบไฟล์ robots.txt ใน Yandex.Webmaster: http://webmaster.yandex.ru/robots.xml

เพื่อที่จะ ตรวจสอบ robots.txt ออนไลน์จำเป็น อัปโหลด robots.txt ไปยังไซต์ในไดเรกทอรีราก. มิฉะนั้นทางบริการอาจรายงานว่า โหลด robots.txt ไม่สำเร็จ. ขอแนะนำให้ตรวจสอบ robots.txt ก่อนว่ามีความพร้อมในที่อยู่ของไฟล์หรือไม่ เช่น your_site.ru/robots.txt

นอกจากบริการตรวจสอบความถูกต้องจาก Yandex และ Google แล้ว ยังมีบริการออนไลน์อื่นๆ อีกมากมาย เครื่องมือตรวจสอบ robots.txt

Robots.txt กับ Yandex และ Google

มีความเห็นส่วนตัวว่า Yandex รับรู้ถึงการบ่งชี้บล็อกคำสั่ง "User-agent: Yandex" ที่แยกต่างหากใน robots.txt ในทางบวกมากกว่าบล็อกคำสั่งทั่วไปที่มี "User-agent: *" สถานการณ์นี้คล้ายคลึงกับ robots.txt และ Google การระบุคำสั่งแยกต่างหากสำหรับ Yandex และ Google ช่วยให้คุณควบคุมการจัดทำดัชนีไซต์ผ่าน robots.txt บางทีพวกเขาอาจรู้สึกยินดีเป็นการส่วนตัวกับการอุทธรณ์โดยเฉพาะอย่างยิ่งเนื่องจากสำหรับไซต์ส่วนใหญ่เนื้อหาของบล็อก robots.txt ของ Yandex, Google และเครื่องมือค้นหาอื่น ๆ จะเหมือนกัน โดยมีข้อยกเว้นที่เกิดขึ้นไม่บ่อยนัก การบล็อก "User-agent" ทั้งหมดจะมี มาตรฐานสำหรับ robots.txtชุดคำสั่ง นอกจากนี้ คุณสามารถติดตั้งโดยใช้ “ตัวแทนผู้ใช้” ที่แตกต่างกันได้ ข้อห้ามในการจัดทำดัชนีใน robots.txt สำหรับ Yandexแต่ ตัวอย่างเช่น ไม่ใช่สำหรับ Google

เป็นที่น่าสังเกตว่า Yandex คำนึงถึงคำสั่งที่สำคัญเช่น "โฮสต์" และ robots.txt ที่ถูกต้องสำหรับ Yandex ควรมีคำสั่งนี้เพื่อระบุมิเรอร์หลักของไซต์ เราจะดูคำสั่ง "โฮสต์" โดยละเอียดด้านล่าง

ปิดใช้งานการจัดทำดัชนี: robots.txt ไม่อนุญาต

Disallow - ห้ามคำสั่งซึ่งมักใช้ในไฟล์ robots.txt Disallow ป้องกันการจัดทำดัชนีของไซต์หรือบางส่วน ขึ้นอยู่กับเส้นทางที่ระบุในพารามิเตอร์คำสั่ง Disallow

ตัวอย่างวิธีป้องกันการจัดทำดัชนีไซต์ใน robots.txt:

ตัวแทนผู้ใช้: * Disallow: /

ตัวอย่างนี้บล็อกทั้งไซต์จากการจัดทำดัชนีสำหรับโรบ็อตทั้งหมด

พารามิเตอร์คำสั่ง Disallow อนุญาตให้ใช้อักขระพิเศษ * และ $:

* - จำนวนอักขระเท่าใดก็ได้ เช่น พารามิเตอร์ /page* เป็นไปตาม /page, /page1, /page-be-cool, /page/kak-skazat เป็นต้น อย่างไรก็ตาม ไม่จำเป็นต้องระบุ * ที่ส่วนท้ายของแต่ละพารามิเตอร์ เนื่องจากตัวอย่างคำสั่งต่อไปนี้ได้รับการตีความเหมือนกัน:

ตัวแทนผู้ใช้: Yandex Disallow: /page ตัวแทนผู้ใช้: Yandex Disallow: /page*

$ - ระบุการจับคู่ที่ตรงกันทุกประการของข้อยกเว้นกับค่าพารามิเตอร์:

User-agent: Googlebot Disallow: /page$

ในกรณีนี้ คำสั่ง Disallow จะไม่อนุญาต /page แต่จะไม่ห้ามการจัดทำดัชนีของหน้า /page1, /page-be-cool หรือ /page/kak-skazat

ถ้า ปิดการจัดทำดัชนีไซต์ robots.txtเครื่องมือค้นหาอาจตอบสนองต่อการย้ายนี้โดยมีข้อผิดพลาด “ถูกบล็อกในไฟล์ robots.txt” หรือ “url ถูกจำกัดโดย robots.txt” (URL ถูกห้ามโดยไฟล์ robots.txt) ถ้าคุณต้องการ ปิดการใช้งานการจัดทำดัชนีหน้าคุณสามารถใช้ได้ไม่เพียงแต่ robots txt เท่านั้น แต่ยังสามารถใช้แท็ก html ที่คล้ายกันได้ด้วย:

- ไม่จัดทำดัชนีเนื้อหาของหน้า;
- ห้ามติดตามลิงค์บนหน้า;
- ห้ามจัดทำดัชนีเนื้อหาและติดตามลิงก์บนหน้า;
- คล้ายกับเนื้อหา = "ไม่มี"

อนุญาตการจัดทำดัชนี: robots.txt อนุญาต

อนุญาต - คำสั่งอนุญาตและตรงกันข้ามกับคำสั่ง Disallow คำสั่งนี้มีไวยากรณ์คล้ายกับ Disallow

ตัวอย่างวิธีห้ามการจัดทำดัชนีของเว็บไซต์ยกเว้นบางหน้าใน robots.txt:

ตัวแทนผู้ใช้: * Disallow: /Allow: /page

ห้ามจัดทำดัชนีทั้งไซต์ยกเว้นหน้าที่ขึ้นต้นด้วย /page

ไม่อนุญาตและอนุญาตโดยมีค่าพารามิเตอร์ว่างเปล่า

คำสั่ง Disallow ว่างเปล่า:

ตัวแทนผู้ใช้: * ไม่อนุญาต:

ห้ามห้ามสิ่งใดหรืออนุญาตให้มีการจัดทำดัชนีของทั้งไซต์และเทียบเท่ากับ:

ตัวแทนผู้ใช้: * อนุญาต: /

คำสั่งอนุญาตให้ว่างเปล่า:

ตัวแทนผู้ใช้: * อนุญาต:

การไม่อนุญาตหรือห้ามการจัดทำดัชนีไซต์โดยสิ้นเชิงจะเทียบเท่ากับ:

ตัวแทนผู้ใช้: * Disallow: /

มิเรอร์เว็บไซต์หลัก: โฮสต์ robots.txt

คำสั่งโฮสต์ใช้เพื่อระบุให้หุ่นยนต์ Yandex เป็นมิเรอร์หลักของไซต์ของคุณ. ในบรรดาเสิร์ชเอ็นจิ้นยอดนิยมทั้งหมดคำสั่ง โฮสต์ได้รับการยอมรับโดยหุ่นยนต์ Yandex เท่านั้น. คำสั่งโฮสต์มีประโยชน์หากเว็บไซต์ของคุณสามารถเข้าถึงได้ผ่านหลายช่องทาง เช่น:

Mysite.ru mysite.com

หรือเพื่อกำหนดลำดับความสำคัญระหว่าง:

Mysite.ru www.mysite.ru

คุณสามารถบอกหุ่นยนต์ยานเดกซ์ได้ว่ากระจกตัวไหนเป็นกระจกหลัก. คำสั่งโฮสต์ระบุไว้ในบล็อกคำสั่ง "User-agent: Yandex" และในฐานะพารามิเตอร์ ที่อยู่ไซต์ที่ต้องการโดยไม่มี "http://" จะถูกระบุ

ตัวอย่าง robots.txt ที่ระบุมิเรอร์หลัก:

ตัวแทนผู้ใช้: Yandex Disallow: /page Host: mysite.ru

ชื่อโดเมน mysite.ru ที่ไม่มี www จะถูกระบุว่าเป็นมิเรอร์หลัก ดังนั้นที่อยู่ประเภทนี้จะถูกระบุในผลการค้นหา

ตัวแทนผู้ใช้: Yandex Disallow: /page Host: www.mysite.ru

ชื่อโดเมน www.mysite.ru ถูกระบุเป็นมิเรอร์หลัก

คำสั่งโฮสต์ในไฟล์ robots.txtสามารถใช้ได้เพียงครั้งเดียว แต่หากมีการระบุคำสั่ง Host มากกว่าหนึ่งครั้ง เฉพาะคำสั่งแรกเท่านั้นที่จะนำมาพิจารณา ส่วนคำสั่ง Host อื่นๆ จะถูกละเว้น

หากคุณต้องการระบุมิเรอร์หลักสำหรับ Googlebot ให้ใช้บริการ Google Webmaster Tools

แผนผังไซต์: แผนผังไซต์ robots.txt

เมื่อใช้คำสั่ง Sitemap คุณสามารถระบุตำแหน่งบนเว็บไซต์ใน robots.txt

ตัวอย่างของ robots.txt ที่ระบุที่อยู่แผนผังไซต์:

ตัวแทนผู้ใช้: * ไม่อนุญาต: /page แผนผังไซต์: http://www.mysite.ru/sitemap.xml

การระบุที่อยู่แผนผังเว็บไซต์ผ่านทาง คำสั่งแผนผังไซต์ใน robots.txtช่วยให้โรบ็อตการค้นหาสามารถค้นหาเกี่ยวกับการมีอยู่ของแผนผังเว็บไซต์และเริ่มสร้างดัชนีได้

คำสั่ง Clean-param

คำสั่ง Clean-param ช่วยให้คุณสามารถยกเว้นหน้าที่มีพารามิเตอร์ไดนามิกจากการจัดทำดัชนี หน้าเว็บที่คล้ายกันสามารถแสดงเนื้อหาเดียวกันได้ แต่มี URL ของหน้าเว็บที่แตกต่างกัน พูดง่ายๆ ก็คือ เหมือนกับว่าเพจสามารถเข้าถึงได้จากที่อยู่ที่แตกต่างกัน หน้าที่ของเราคือการลบที่อยู่แบบไดนามิกที่ไม่จำเป็นออกทั้งหมด ซึ่งอาจมีอยู่นับล้านรายการ ในการดำเนินการนี้ เราจะยกเว้นพารามิเตอร์ไดนามิกทั้งหมด ใช้คำสั่ง Clean-param ใน robots.txt.

ไวยากรณ์ของคำสั่ง Clean-param คือ:

ทำความสะอาดพารามิเตอร์: parm1[&parm2&parm3&parm4&..&parmn] [เส้นทาง]

ลองดูตัวอย่างหน้าเว็บที่มี URL ต่อไปนี้:

www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

ตัวอย่าง robots.txt Clean-param:

Clean-param: parm1&parm2&parm3 /page.html # สำหรับ page.html เท่านั้น

Clean-param: parm1&parm2&parm3 / # สำหรับทุกคน

คำสั่งการรวบรวมข้อมูลล่าช้า

คำแนะนำนี้ช่วยให้คุณสามารถลดภาระบนเซิร์ฟเวอร์ได้หากโรบอตเยี่ยมชมไซต์ของคุณบ่อยเกินไป คำสั่งนี้เกี่ยวข้องกับไซต์ที่มีหน้าจำนวนมากเป็นหลัก

ตัวอย่างการรวบรวมข้อมูลของ robots.txt-delay:

ตัวแทนผู้ใช้: Yandex Disallow: /page Crawl-delay: 3

ในกรณีนี้ เรา "ขอให้" หุ่นยนต์ Yandex ดาวน์โหลดหน้าเว็บไซต์ของเราไม่เกินหนึ่งครั้งทุกๆ สามวินาที เครื่องมือค้นหาบางตัวรองรับรูปแบบเศษส่วนเป็นพารามิเตอร์ คำสั่ง robots.txt ที่ล่าช้าในการรวบรวมข้อมูล.

ตัวอย่างเช่น คุณตัดสินใจเปลี่ยนการออกแบบบล็อกของคุณและไม่ต้องการให้บอทค้นหาเยี่ยมชมแหล่งข้อมูลในขณะนี้ หรือคุณเพิ่งสร้างเว็บไซต์และติดตั้งเอ็นจิ้นบนเว็บไซต์ ดังนั้นหากทรัพยากรไม่มีข้อมูลที่เป็นประโยชน์ คุณไม่ควรแสดงให้บอทค้นหา ในบทความนี้คุณจะได้เรียนรู้วิธีบล็อกเว็บไซต์ไม่ให้จัดทำดัชนีใน Yandex, Google หรือเครื่องมือค้นหาทั้งหมดในคราวเดียว แต่ก่อนหน้านั้น คุณสามารถอ่านบทความที่คล้ายกันอีกบทความหนึ่งได้: “?” ตอนนี้เรามาเริ่มต้นกัน

1. บล็อกไซต์ไม่ให้สร้างดัชนีโดยใช้ไฟล์ robots.txt
ในการเริ่มต้นคุณต้องมี ในการดำเนินการนี้ ให้สร้างเอกสารข้อความปกติบนคอมพิวเตอร์ของคุณโดยใช้ชื่อ robots และนามสกุล .txt นี่คือสิ่งที่ฉันเพิ่งสร้างขึ้น:

ตอนนี้จะต้องโหลดไฟล์นี้ลงใน . หากทรัพยากรถูกสร้างขึ้นบนกลไก WordPress แสดงว่าโฟลเดอร์รูทคือตำแหน่งที่มีโฟลเดอร์ wp-content, wp-includes ฯลฯ

ดังนั้นเราจึงได้อัปโหลดไฟล์เปล่าไปยังโฮสติ้ง ตอนนี้เราจำเป็นต้องใช้ไฟล์นี้เพื่อปิดบล็อกจากการจัดทำดัชนี ตามที่ฉันเขียนไว้แล้วสามารถทำได้เฉพาะกับ Yandex, Google หรือเครื่องมือค้นหาทั้งหมดในคราวเดียว เรามาพูดถึงทุกอย่างตามลำดับ

จะบล็อกไซต์ไม่ให้จัดทำดัชนีเฉพาะ Yandex ได้อย่างไร
เขียนบรรทัดต่อไปนี้ในไฟล์ robots.txt:

ตัวแทนผู้ใช้: Yandex
ไม่อนุญาต: /

เพื่อให้แน่ใจว่าคุณได้ป้องกันไม่ให้ Yandex สร้างดัชนีทรัพยากรของคุณ ขั้นแรกให้เพิ่มไซต์หากคุณยังไม่ได้ดำเนินการ จากนั้นไปที่หน้านี้ จากนั้น ป้อนหลายหน้าในไซต์ของคุณแล้วคลิกปุ่ม "ตรวจสอบ" หากเพจถูกห้ามไม่ให้จัดทำดัชนี คุณจะเห็นสิ่งนี้:

จะบล็อกไซต์ไม่ให้ถูกจัดทำดัชนีโดย Google ได้อย่างไร
เปิดไฟล์ robots.txt และเขียนบรรทัดต่อไปนี้:

ตัวแทนผู้ใช้: Googlebot
ไม่อนุญาต: /

เพื่อตรวจสอบว่า Google ไม่ได้จัดทำดัชนีไซต์ ให้สร้าง เพิ่มทรัพยากรของคุณไปยัง Google Webmaster และไปที่ไซต์นั้น ที่นี่คุณต้องป้อนหลายหน้าแล้วคลิกที่ปุ่ม "ตรวจสอบ"

ฉันสังเกตเห็นว่าเครื่องมือค้นหาของ Google ยังจัดทำดัชนีเอกสารเหล่านั้นที่ไม่ได้รับอนุญาตในไฟล์ robots.txt และป้อนลงในดัชนีเพิ่มเติมที่เรียกว่า "น้ำมูก" ฉันไม่รู้ว่าทำไม แต่คุณต้องเข้าใจว่าเป็นไปไม่ได้ 100% ที่จะบล็อกไซต์หรือหน้าเว็บแต่ละหน้าโดยใช้ไฟล์ robots.txt ตามที่ฉันเข้าใจ ไฟล์นี้เป็นเพียงคำแนะนำสำหรับ Google เท่านั้น และจะตัดสินใจว่าจะจัดทำดัชนีอะไรและไม่ควรจัดทำดัชนี

จะบล็อกไซต์ไม่ให้สร้างดัชนีสำหรับเครื่องมือค้นหาทั้งหมดได้อย่างไร
หากต้องการป้องกันไม่ให้เครื่องมือค้นหาทั้งหมดจัดทำดัชนีทรัพยากรของคุณในครั้งเดียว ให้เพิ่มบรรทัดต่อไปนี้ใน robots.txt:

ตัวแทนผู้ใช้: *
ไม่อนุญาต: /

ตอนนี้คุณสามารถไปที่ Yandex หรือ Google Webmaster และตรวจสอบการห้ามจัดทำดัชนีได้

คุณสามารถดูไฟล์ robots.txt ได้ตามที่อยู่นี้:

Vashdomain.ru/robots.txt

ทุกสิ่งที่คุณเขียนในไฟล์นี้ควรจะแสดงในเบราว์เซอร์ เมื่อคุณไปที่ที่อยู่นี้ หากข้อความปรากฏขึ้นตรงหน้าคุณ นั่นหมายความว่าคุณอัปโหลดไฟล์ของคุณไปยังตำแหน่งที่ไม่ถูกต้อง

อย่างไรก็ตาม robots.txt ของฉันอยู่ หากทรัพยากรของคุณสร้างจากเอ็นจิ้น WordPress คุณก็สามารถคัดลอกมันได้ มีการกำหนดค่าอย่างถูกต้องเพื่อให้แน่ใจว่าบอทการค้นหาจะจัดทำดัชนีเฉพาะเอกสารที่จำเป็นเท่านั้น และไม่มีรายการที่ซ้ำกันบนไซต์

2. บล็อกไซต์ไม่ให้สร้างดัชนีโดยใช้แถบเครื่องมือ
วิธีนี้เหมาะสำหรับผู้ที่มีทรัพยากรสร้างบน WordPress เท่านั้น ไปที่ "แผงควบคุม" - "การตั้งค่า" - "การอ่าน" ที่นี่คุณต้องทำเครื่องหมายที่ช่องถัดจากข้อความ "แนะนำว่าเครื่องมือค้นหาไม่จัดทำดัชนีไซต์"

โปรดทราบว่าด้านล่างมีคำจารึกที่น่าสนใจมาก: “เครื่องมือค้นหาจะตัดสินใจว่าจะปฏิบัติตามคำขอของคุณหรือไม่” นี่คือสิ่งที่ฉันเขียนเกี่ยวกับข้างต้น ยานเดกซ์มีแนวโน้มมากที่สุดที่จะไม่จัดทำดัชนีหน้าเว็บที่ถูกห้ามไม่ให้จัดทำดัชนี แต่อาจเกิดปัญหากับ Google

3. เราปิดไซต์จากการจัดทำดัชนีด้วยตนเอง
เมื่อคุณปิดทรัพยากรหรือเพจทั้งหมดจากการจัดทำดัชนี บรรทัดต่อไปนี้จะปรากฏในซอร์สโค้ดโดยอัตโนมัติ:

ชื่อเมตา = "หุ่นยนต์" เนื้อหา = "noindex ติดตาม"

มันบอกบอทการค้นหาว่าเอกสารไม่สามารถจัดทำดัชนีได้ คุณสามารถเขียนบรรทัดนี้ด้วยตนเองได้ทุกที่บนเว็บไซต์ของคุณ สิ่งสำคัญคือปรากฏบนทุกหน้า จากนั้นทรัพยากรจะถูกปิดจากการจัดทำดัชนี

อย่างไรก็ตาม หากคุณสร้างเอกสารที่ไม่จำเป็นบนเว็บไซต์ของคุณ และไม่ต้องการให้บอทการค้นหาจัดทำดัชนี คุณสามารถแทรกบรรทัดนี้ในซอร์สโค้ดได้

หลังจากอัปเดตแล้ว ให้เปิดซอร์สโค้ดของหน้า (CTRL + U) และดูว่าบรรทัดนี้ปรากฏขึ้นที่นั่นหรือไม่ ถ้ามีทุกอย่างก็ดี ในกรณีนี้ คุณสามารถตรวจสอบโดยใช้เครื่องมือสำหรับผู้ดูแลเว็บจาก Yandex และ Google ได้

นั่นคือทั้งหมดสำหรับวันนี้ ตอนนี้คุณรู้วิธีบล็อกไซต์จากการจัดทำดัชนีแล้ว ฉันหวังว่าบทความนี้จะเป็นประโยชน์กับคุณ ลาก่อนทุกคน.