Crawl Budget
รู้หรือไม่? ว่าถ้าเว็บไซต์ของเรามีขนาดใหญ่มากๆ ที่หมายถึงมีหน้าเว็บเพจเป็นหมื่นๆ แสนๆ บางที หน้าเพจบางหน้าก็อาจจะหลุดรอดสายตาของ Googlebot ไปได้เหมือนกัน ซึ่งปัจจัยสำคัญที่นำให้ Google มองข้าม นั่นก็คือ เรื่องของ “Crawl Budget” หรือที่แปลให้เข้าใจกันง่ายๆ ก็คือ จำนวนโควต้าในการตรวจค้นเว็บไซต์ของ Google ต่อเว็บไซต์ นะฮิปปป~
Crawl Budget คืออะไร และทำไม SEO ต้องสนใจด้วย
Crawl Budget คือ จำนวนโควต้าที่ Googlebot หรือ Search Engine จะ/อยากเข้ามาตรวจสอบ (crawl) เว็บไซต์ในช่วงเวลาหนึ่ง เนื่องจาก Search Engine มีหน้าที่ที่ต้องเข้าไป Crawl เว็บไซต์จากทั่วโลกจำนวนหลายล้านล้านเว็บไซต์ คงเป็นไปไม่ได้ที่ตัวบอทจะสามารถเข้าไปค้นหน้าเพจทุกหน้าได้
ทั้งนี้ “Crawl Budget” จริงๆ แล้วไม่ได้มีนิยามจำกัดจาก Google ว่าคืออะไร และ Crawl Budget ก็ไม่ได้เป็นปัจจัยในการจัดอันดับเพจ (Ranking Factors) ด้วย ทำให้ SEO หลายๆ คน มักจะมองข้ามเรื่องนี้ไป
อย่างไรก็ตาม นะฮิปปป เราปฏิเสธไม่ได้เลยว่า เรื่องของ Crawl Budget นั้น ส่งผลโดยตรงกับการทำ SEO อย่างยิ่ง เพราะลองนึกดูสิว่า ถ้าหน้าเพจไหนถูก Googlebot มองข้าม หน้าเพจนั้นก็เหมือนถูกทำหมัน ไม่มีโอกาสเลยสักนิดที่จะทำอันดับ
…แต่ก็ใช่ว่า ทุกเว็บไซต์จะต้องสนใจเรื่องนี้นะ
เพราะ Google เองก็เคยพูดถึง Crawl Budget ไว้ตั้งแต่ปี 2017 ในช่วงที่คนดูแลเว็บไซต์และ SEO เริ่มพูดถึงกัน ว่า ไม่ใช่เรื่องที่ทุกเว็บไซต์จะต้องกังวล เพราะโดยทั่วไปแล้ว Googlebot เองก็ทำงานอย่างเต็มที่และสามารถ Crawl เว็บไซต์ได้อย่างมีประสิทธิภาพอยู่แล้ว
แล้วเว็บแบบไหนบ้างที่ต้องสนใจ Crawl Budget
แน่นอนว่า ถ้าไม่มีปัญหาเกิดขึ้น ก็คงไม่มีคนพูดถึง ซึ่งสำหรับประเด็น Crawl Budget นั้น Google เองก็บอกว่า เว็บไซต์ที่อาจจะต้องคอยดูเรื่องนี้บ้าง ก็คือ เว็บไซต์ขนาดใหญ่มากๆ ได้แก่
- เว็บไซต์ขนาดใหญ่ที่มีหน้าเพจมากกว่า 1 ล้านหน้า และมีการเปลี่ยนแปลงเนื้อหาค่อนข้างบ่อย (หนึ่งครั้งต่อสัปดาห์)
- เว็บไซต์ขนาดกลาง หรือที่มีหน้าเพจตั้งแต่ 10,000+ หน้าขึ้นไป และคอนเทนต์มีการเปลี่ยนแปลงบ่อยมาก (ทุกวัน)
- เว็บไซต์ที่ Google Search Console จัดว่า มีปริมาณ URLs จำนวนมากที่ไม่ถูก Index
ซึ่งลักษณะของเว็บไซต์ข้างต้น ก็คงหนีไม่พ้นเว็บไซต์ประเภท E-commerce และ E-commerce Platform ที่มีหน้าสินค้าจำนวนมากหรือมีหน้าใหม่ๆ เกิดขึ้นเป็นประจำ
นอกจากนี้ ยังมีกรณีที่บางเว็บไซต์ควรให้ความสนใจกับเรื่อง Crawl Budget นั่นคือ เว็บไซต์ที่เพิ่มจำนวนหน้าใหม่ในคราวเดียวเยอะๆ หลายร้อยหรือหลายพันหน้าในวันเดียว หรือมีการทำ Redirect URLs คราวละมากๆ ก็มีโอกาสที่ Crawl Budget ในวันนั้นๆ จะถูกผลาญไปมากกว่าปกติและไม่เพียงพอให้ Crawler เข้ามาค้นทุกหน้า
Crawl Budget จะมากหรือน้อยขึ้นอยู่กับอะไร?
อย่างที่แชร์ไปแล้วว่า “Crawl Budget” ไม่ใช่สิ่งที่ Google กำหนดขึ้นมาว่า แต่ละเว็บไซต์จะมีโควต้าสำหรับค้นเว็บไซต์จำนวนจำกัดเป๊ะๆ ต่อวัน แต่ปริมาณ Crawl Budget นั้น สามารถขึ้นลงได้ จาก 2 ปัจจัย ได้แก่
Crawl Limit
Crawl Limit หมายถึง จำนวนจำกัดที่ Googlebot จะเข้ามาค้นเว็บไซต์ ซึ่งจำนวน “Crawl Rate” จะเพิ่มสูงขึ้นหรือลดลง จะขึ้นอยู่กับ 2 ปัจจัย ด้วยกัน
- Crawl Health: ถ้าเว็บไซต์ตอบสนองได้อย่างรวดเร็ว โหลดเร็ว ลิมิตในการค้นหาของ Crawler ก็มีโอกาสเพิ่มมากขึ้น ในทางกลับกัน หากเว็บไซต์ของเราโหลดช้า ตอบสนองช้า หรือเซิร์ฟเวอร์มีปัญหา จำนวน Crawl Limit ก็สามารถลดลงได้
- Limit set in Search Console: หมายถึงลิมิตที่เจ้าของเว็บไซต์ตั้งค่าไว้เป็นเพดานให้ Google เข้ามาค้นเว็บไซต์ในแต่ละวัน (บางเว็บไซต์กำหนดให้ต่ำเพื่อลด Fetch Rate หรืออัตราการดึงข้อมูลของเว็บไซต์และเซิร์ฟเวอร์ทำให้เว็บไซต์เร็วขึ้น) ทั้งนี้ การที่ตั้งลิมิตไว้สูงๆ ก็ไม่ได้หมายความว่า Crawl Rate จะสูงขึ้นตามนะฮิปปป
Crawl Demand
Crawl Demand หมายถึง ความต้องการที่จะมา Crawl เว็บไซต์ของ Googlebot ถ้าตัวบอทมีความต้องการหรือ Demand ให้กับแต่ละเว็บไซต์สูง จำนวน Crawl Budget และ Crawl Rate สำหรับเว็บไซต์นั้นๆ ก็จะสูงตาม ว่าแต่มีอะไรบ้างนะ ที่เร้าให้ Googlebot มีความต้องการสูงกัน 😽
- Popularity: URLs ไหนฮอตฮิตเป็นที่นิยม Googlebot ก็จะยิ่งสนใจ ซึ่งคะแนนความนิยมนั้นก็มาจากปัจจัยต่างๆ เช่น มีคนเข้าถึงบ่อยๆ หรือมี Internal link และ Backlink ส่งเข้ามาหา ฯลฯ
- Freshness: หมายถึง ความสดใหม่ของ URLs ถ้ามีการอัปเดตอยู่เรื่อยๆ ก็ไม่มีปัญหา แต่ถ้าคอนเทนต์ในหน้าเก่า ไม่มีการปรับปรุงเป็นเวลานาน Googlebot ก็จะหมดความเสน่หาไป
- Type of page: ประเภทของเพจก็มีผลต่อความการเข้ามา Crawl ของ Googlebot ด้วยเช่นกัน เพจจำพวก Static page คอนเทนต์ไม่ค่อยอัปเดต ยกตัวอย่างเช่น หน้า Terms and Condition page ตัวบอทก็จะไม่ค่อยสนใจ
จะดู Crawl Budget เว็บไซต์ของเราได้ตรงไหน
เราสามารถตรวจสอบดู Crawl Budget ของเว็บไซต์เราได้ ผ่าน Google Search Console (<< เว็บไซต์ใครยังไม่ลงทะเบียน บทความนี้สอนติดตั้งนะฮิปปป~) โดยเข้าไปดู Report ง่ายๆ ได้ตามนี้
วิธีดู Crawl Budget ใน Google Search Console
- ล็อกอินเข้า Google Search Console และเลือกเว็บไซต์ที่ต้องการ
- ไปที่เมนู “Crawl Stats” ใน Setting เพื่อดูจำนวนที่ Googlebot เข้ามา Crawl เว็บไซต์ของเราให้แต่ละวัน
หน้าตาของ Crawl Stats เป็นแบบนี้ 👇
จากข้อมูลส่วนนี้ เราสามารถนำจำนวนการ Crawling ในแต่ละวันมาหาค่าเฉลี่ยในแต่ละเดือนได้ เราก็จะได้จำนวน Crawl Budget ของเว็บไซต์เรา ทั้งนี้ ในอนาคตปริมาณ Crawl Budget ของเว็บไซต์เราอาจจะลดลงหรือเพิ่มขึ้น ขึ้นอยู่กับ Crawl Limit และ Crawl Demand รวมไปถึงการปรับแต่งเว็บไซต์ของเราด้วย
หน้าเพจแบบไหนบ้างที่ผลาญ Crawl Budget โดยสิ้นเปลือง
มาดูกันดีกว่าว่า หน้าเพจแบบไหนที่เผาผลาญ Crawl Budget ของเว็บไซต์เราโดยไม่จำเป็นบ้าง เว็บไซต์ conducter.com เครื่องมือ SEO และ SEO Platform ก็ได้สรุปรวมมา ดังนี้
- URLs ที่ติด parameters ยกตัวอย่างเช่น “https://www.example.com/shoes/men?color=black” (Paramiter คือ ส่วนที่อยู่หลัง “?”) ซึ่งมักเกิดขึ้นกับเว็บไซต์ที่มีฟังก์ชัน Search on site เพราะทุกๆ คำสั่งค้นหาหรือกรอง (filter) จะเกิดหน้าเพจและ URLs ใหม่ๆ ที่ติด Parameter
- Duplicate content หรือหน้าเพจที่มีเนื้อหาซ้ำซ้อนกันหรือใกล้เคียงกันมากๆ ก็ไม่คุ้มค่าที่จะให้ Crawler เข้ามาค้นไปจัดอันดับบนหน้าเสิร์ช (SERPs)
- Low-quality Content หรือหน้าเพจที่มีเนื้อหาน้อย หน้าเพจที่ไม่ได้มีคุณค่ามากพอที่จะให้ Googlebot เข้ามา crawl หรือหน้าที่ไม่จำเป็นต้องทำอันดับ
- Broken and redirecting links ลิงก์เสียถ้าไม่เอาออก Crawler ก็ยังจะเข้ามาค้นอยู่ดี และเช่นเดียวกันกับ redirecting link ก็จะทำให้เกิดการ Crawl ซ้ำซ้อนเช่นกัน
- URLs ผิดๆ ใน XML sitemap เช่น URLs ที่ไม่มีเพจจริงๆ อยู่ แล้วเขียนส่งใน XML sitemap ก็จะถูก Crawl โดยไม่เกิดประโยชน์
- หน้าเพจที่โหลดนานหรือโหลดไม่ได้ จะถือเป็นสัญญาณที่ Googlebot มองว่า ไม่สามารถเข้ามา Crawl ได้ ดังนั้น บอทจึงอาจปรับลด Crawl Budget สำหรับเว็บไซต์นั้นๆ ลง
- High numbers of non-indexable pages หมายถึง เว็บไซต์มีหน้าเพจที่บอทไม่สามารถเข้ามา Index ได้จำนวนมาก
- Bad internal link ถ้าใส่ Internal link ไม่เป็นระบบ หรือสแปมใส่มั่วซั่ว บอทก็อาจมองว่า เว็บไซต์มีความสแปมสูง ทำให้อาจปรับ Crawl limit ลดลงได้
วิธีเพิ่ม Crawl Budget ให้เว็บไซต์ ทำอะไรได้บ้าง?
ถ้าใครตรวจสอบ Crawl Budget ของเว็บไซต์ตัวเองแล้วพบว่า Crawl Budget ค่อนข้างต่ำหรืออยากเพิ่มลิมิตให้สูงขึ้น สิ่งที่ต้องทำก็มีด้วยกัน 2 เรื่องด้วยกัน ได้แก่ พยายามหน้าเพจ/ปัจจัยที่ทำให้ใช้ Crawl Budget โดยเปล่าประโยชน์ กับการพยายามทำให้ Crawler เข้ามาค้นเว็บไซต์ของเราได้ดีขึ้น
1. ปรับปรุง Page Speed เว็บไซต์หรือลด Load time
ปัญหาหน้าเว็บโหลดนาน ก็เป็นอีกหนึ่งสาเหตุหลักที่ทำให้ Crawler เข้ามาทำ Index บนเว็บไซต์ของเราได้น้อยลง ยิ่งต้องใช้เวลาในการโหลดนาน จำนวนหน้าเพจที่ Crawler จะค้นได้ก็จะน้อยลง ในทางกลับกัน ถ้าหน้าเพจแต่ละหน้าโหลดไวขึ้น ก็มีเวลาให้ Crawler ค้นเพจได้มากขึ้น
นอกจากนี้ ในกรณีที่ร้ายแรงกว่า คือ หน้าเว็บโหลดนานจนหมดเวลา (time out) หรือโหลดไม่ขึ้นในที่สุด ปัญหานี้จะทำให้ Googlebot มองว่า เสียเวลาก็อาจปรับลด Crawl limit ลงได้
สำหรับใครเจอปัญหาหน้าเว็บโหลดช้าอยู่ AMPROSEO เขียนบทความวิธีเพิ่ม Page Speed ให้เว็บไซต์โหลดเร็วขึ้น 👈 ไว้แล้วในบทความนี้นะ
2. จัดการกับ Orphan Page หรือหน้าเพจลูกกำพร้า
พยายามจัดการไม่ให้เว็บไซต์ของเรามี Orphan page หรือหน้าเพจลูกกำพร้าหลุดรอด ซึ่ง Orphan page ก็หมายถึง หน้าเพจลอยๆ ที่ไม่ได้อยู่ภายใต้หน้าเพจหลักใด ไม่มี Internal link หรือ External link ในหน้าเพจนั้นๆ
หากย้อนกลับไปที่วิธีการ Crawl เว็บไซต์ของ Googlebot บอทจะไล่ค้นเว็บไซต์ตามโครงสร้างเว็บไซต์ (Site structure) ดังนั้น หน้าที่ไม่ได้อยู่ในโครงสร้าง ไม่ได้เชื่อมต่อกับใคร Googlebot ก็จะใช้เวลานานกว่าในการค้นหา เป็นการเปลือง Crawl Budget โดยใช่เหตุ
3. ลดจำนวน Duplicate Content
Duplucate Content หรือหน้าเพจที่มีเนื้อหาใกล้เคียงกันมากๆ ก็ถือเป็นอีกประเภทเพจที่ไม่ค่อยมีคุณค่าหรือ Value ที่จะผลาญ Crawl Budget ใช้ ดังนั้น เพื่อประหยัดโควต้าในการ Crawl เว็บไซต์ เราควรลดจำนวน Duplicate Content ลงให้ได้มากที่สุด ไม่ว่าจะเป็น
- ปัญหาหน้าเพจเดียวกันแต่ต่างโดเมน (HTTP, HTTPS, non-WWW, and WWW)
- ปัญหาการสร้างหน้าเพจอัตโนมัติจากการอัปโหลดรูปหรือสื่ออื่นๆ บนเว็บไซต์
- ปัญหาหน้าเพจที่มีเนื้อหาคล้ายคลึงกัน
4. ปรับปรุงหรือจัดการ Low-quality Content
เช่นเดียวกับเพจประเภท Duplicate Content เพจ Low-quality Content ก็เป็นอีกเพจที่อาจผลาญ Crawl Budget ไปโดยสิ้นเปลืองเช่นกัน ทั้งนี้ เพจที่มี “Low-quality content” ไม่ได้หมายถึงเพจที่คอนเทนต์เนื้อหาแย่ แต่เป็นเพจที่เนื้อหาน้อยและคนไม่ค้นเข้ามาอ่านเท่าไหร่ ซึ่งเพจเหล่านี้ก็อาจจะไม่ใช่เพจที่เราตั้งใจทำอันดับอยู่แล้ว ยกตัวอย่างเช่น หน้า Terms & Conditions หน้าสมัครสมาชิก หน้า Policy ฯลฯ
วิธีแก้ไขปัญหานี้ สามารถทำได้ผ่าน Plug-in ต่างๆ เช่น WordPress โดยตั้งค่าว่าไม่ให้ Search Engine เข้ามา Crawl หน้านี้ หรือเขียน Robot.txt บอก Search Engine ว่า ไม่ต้องค้นหน้านี้นะ (เพราะเราอยากเซฟ Crawl Budget ไปใช้กับเพจอื่นที่คุ้มค่ามากกว่า)
5. เพิ่ม Backlink และ Internal link
การพยายามเพิ่ม Backlink และ Internal link ก็สามารถช่วยเพิ่ม Crawl Budget ให้กับเว็บไซต์ของเราได้
การที่เว็บไซต์ของเราได้รับ Backlink มีเว็บไซต์อื่นๆ ส่งลิงก์เข้ามาหา จะส่งผลให้หน้าเว็บเพจนั้นๆ มีค่าความนิยมสูงขึ้น ซึ่งความนิยมนี้ คือ หนึ่งในปัจจัยที่ทำให้เกิด Crawl Demand
ส่วนการทำ Internal link ก็เป็นการเพิ่มโอกาสให้ Googlebot เข้าไปค้นเจอหน้าเพจต่างๆ ที่เกี่ยวข้องได้ง่ายขึ้น และยังเพิ่มโอกาสที่คนจะไหลจากหน้าเพจหนึ่งผ่าน Internal link หรือผ่าน Anchor Text (ลิงก์ที่ฝังในตัวอักษร) ไปยังอีกหน้า เพิ่มค่าความนิยมได้เช่นกัน
6. แก้ปัญหา Broken link และ Redirecting link
Broken link คือ ลิงก์ที่ไม่มีอีกต่อไปแล้วหรือลิงก์ที่ User ไม่สามารถเข้าถึงได้ และแน่นอนว่า Search Engine เองก็เข้ามาได้
เมื่อเข้าไม่ได้หน้าเหล่านั้น ก็จะไม่ถูก Crawl และหน้าเพจไหนที่มี Broken link อยู่ ก็จะถูกมองว่า มีคุณภาพแย่ลง ส่งผลต่อ User Experience ก็อาจทำให้คะแนน Crawl Demand ลดลงได้
และสำหรับ Redirect link หรือ URLs หนึ่งที่ส่งคนไปยังอีก URLs หนึ่ง ตอนที่ Googlebot เข้ามา Crawl จะเหมือนกับการ Crawl ซ้ำ ถ้าเว็บไซต์ของเราจำเป็นต้องทำ Redirect URLs จำนวนมาก ก็ควรที่จะเขียน Robot.txt ไม่ให้ Search Engine เข้าไปค้น URLs ที่เราไม่ต้องการให้เข้าไปค้นแล้ว
7. แก้ปัญหา URLs with Parameters
ปัญหานี้หมายถึง ปัญหา URLs ซ้ำซ้อนซึ่งมาจากการติด Parameters หรือ UTM Parameters ไว้ด้านหลัง URLs เช่น
- www.example.com/shoes/men/?utm_source=new+subscribers&utm_medium=email&utm_campaign=black+friday+sale
- www.example.com/shoes/men/?utm_source=banner&utm_medium=website&utm_campaign=black+friday+sale
- www.example.com/shoes/men/?utm_source=cta&utm_medium=blog&utm_campaign=always+on
URLs เหล่านี้ ในมุมของ User คงเป็นหน้าเพจเดียวกัน แต่สำหรับ Search Engine แล้ว จะมองว่าเป็น URLs แยกที่ต้องเข้ามา Crawl จึงถือว่าเป็นการใช้ Crawl Budget โดยสิ้นเปลือง
นอกจากนี้ ยังมี URLs ประเภทที่ถูกสร้างขึ้นมาได้เรื่อยๆ จากฟังก์ชันค้นหาบนเว็บ (Search on Site) และฟิลเตอร์ เช่น https://www.example.com/shoes/men?color=black หรือ https://www.example.com/shoes/men?price=50-100usd
เราสามารถจัดการปัญหานี้ โดยการเขียน Robot.txt ระบุไม่ให้ Seach Engine เข้าไปค้น URLs ที่มี “?” หรือ Parameters ตามหลังได้
สรุป Crawl Budget คืออะไร ทำไม SEO ต้องสนด้วย
Crawl Budget คือ จำนวนโควต้าในการมาค้นเว็บไซต์ของ Googlebot ซึ่งปกติแล้ว เว็บไซต์โดยทั่วไปไม่ต้องสนใจเรื่องนี้ เพราะ Googlebot มีหน้าที่ Crawl เว็บไซต์ให้ทั้งหมดอยู่แล้ว เพียงแต่ว่า ถ้าเป็นเว็บไซต์ขนาดใหญ่ที่มีหน้าเพจมากกว่า 1 ล้านเพจ หรือมีหน้าเพจมากกว่า 10K เพจที่เปลี่ยนแปลงอัปเดตบ่อย ก็อาจเผชิญกับปัญหา Crawler ค้นไม่ทั่วเว็บ หลุดรอดบางเพจไปบ้าง
แม้ว่า Crawl Budget จะไม่ใช่ Ranking Factor ที่ SEO ต้องค่อยทำคะแนน แต่ถ้า Crawler มองข้ามหน้าไหนไป หน้านั้นก็จะไม่มีโอกาสถูกเสิร์ชเจอเลย สำหรับเว็บไซต์ใหญ่ๆ แล้ว จึงควรใส่ใจเรื่องของ Crawl Budget ใช้งบประมาณที่ได้มาอย่างคุ้มค่าและการใช้ Crawl Budget ไปกับหน้าเพจที่สิ้นเปลือง
เอ๋ พูดๆ ไป เหมือนทริกประหยัดเงินอยู่เหมือนกันนะฮิปปป ว ว ~ 😸
เขียนถึงตรงนี้ ขอขายของเล็กน้อย ถ้าใครกำลังมองหาบริษัทรับทำ SEO อยู่ ไม่มั่นใจว่าควรทำ/ไม่ควรทำ ก็ทักเข้ามาคุยกันก่อนได้นะ ฟรี ไม่มีค่าใช้จ่าย