crawl-budget

Crawl Budget Là Gì? 7 Cách Tối Ưu Ngân Sách Thu Thập 2021

Crawl Budget là gì?

What-Is-Crawl-Budget

Crawl Budget là số lượng trang mà Googlebot thu thập (crawls) và lập chỉ mục (indexes) trên website trong khoảng thời gian nhất định.

Google có thể thu thập trên website của bạn 10 trang mỗi ngày, 100 trang mỗi ngày, 1.000 trang mỗi ngày. Số lượng trang mà Google thu thập ở mỗi website được gọi là “budget” – ngân sách.

Trước năm 2009, Google thừa nhận rằng họ chỉ có thể tìm thấy 1% nội dung trên internet và luôn luôn khuyến khích các chủ website tối ưu hóa cho việc thu thập thông tin dễ dàng hơn.

Sau đó dần dần về sau Google đã ngày càng cải tiến thuật toán nhằm thu thập thông tin một cách hiệu quả hơn cho đến thời điểm bây giờ. Những nội dung tìm kiếm phù hợp nhu cầu bạn thấy ở trang 1 đều là sự nỗ lực của Google trải qua rất nhiều năm.

Crawl budget hoạt động như thế nào?

Theo Google thì có 3 bước cơ bản mà công cụ tìm kiếm thực hiện để thu thập nội dung từ website:

Bước 1: Crawling – Thu thập thông tin

Trình thu thập thông tin truy cập vào website cụ thể.

Bước 2: Indexing – Lập chỉ mục

Googlebot sẽ thực hiện phân tích nội dung của từng trang và lưu trữ thông tin nó đã đọc được cho vào thư viện của Google.

Bước 3: Serving (and Ranking) – Hiển thị (và Xếp hạng)

Khi người dùng thực hiện tìm kiếm từ khóa thì Google sẽ tìm kiếm trong thư viện của nó câu trả lời nào là phù hợp nhất với ý định tìm kiếm.

Nếu nội dung web của bạn không được lập chỉ mục thì sẽ không xuất hiện trên công cụ tìm kiếm.

crawl-process

Những yếu tố ảnh hưởng tới Crawl budget là:

  • Mức độ phổ biến (Popularity): Bao nhiêu liên kết nội bộ và liên kết ngoài trỏ tới cũng như số lượng từ khóa mà nó xếp hạng trên Google.
  • Tính mới (Freshness): Tần suất nội dung bài viết được cập nhật
  • Loại trang (Type of page): Ví dụ trang liên hệ, trang sản phẩm so với trang tin tức – bạn nghĩ là loại trang nào sẽ được ưu tiên trước.

Crawl budget có phải là một yếu tố xếp hạng của Google không?

Việc bạn tối ưu ngân sách thu thập không ảnh hưởng tới việc bạn có nằm ở vị trí xếp hạng tốt trong kết quả tìm kiếm.

Google sử dụng hàng trăm yếu tố xếp hạng khác để đánh giá nội dung của bạn. Trong khi đó thì crawl budget là điều kiện bạn cần có để cho nội dung của bạn xuất hiện trên Google thôi.

Cho nên là crawl budget không phải là một yếu tố xếp hạng bạn nhé.

Để kiểm tra tình trạng lập chỉ mục trên website bạn có thể sử dụng Google Search Console mục Coverage.

Ở đây Valid là số trang bạn đã được lập chỉ mục trên Google. Tại đây bạn cũng sẽ thấy được những trang đang bị lỗi index nếu có.

coverage-gsc

Ngoài ra bạn có thể sử dụng Google với cú pháp: “Site:domain.com” và xem số lượng kết quả nhé.

check-index-pages

Giới hạn của Crawl Budget?

Google xác định ngân sách thu thập thông tin bằng crawl limit và crawl demand.

crawl-budget-define
  • Crawl limit: Bao gồm tốc độ trang, lỗi thu thập thông tin, giới hạn được đặt trong Google Console để có thể ảnh hưởng tới giới hạn của crawl budget (điều này mình sẽ giải thích kỹ ở phần này)
  • Crawl demand: Mức độ phổ biến trang cũng như độ mới hoặc cũ của nội dung cũng có thể ảnh hưởng tới nhu cầu thu thập thông tin của bạn (điều này mình sẽ chỉ cách tối ưu ở phần tiếp)

Googlebot muốn thu thập dữ liệu trang web của bạn nhưng không hề muốn ảnh hưởng tới hoạt động của website.

Để tránh điều này Googlebot sẽ tính toán giới hạn dung lượng thu thập thông tin của nó.

Cho nên đối với mỗi trang web khác nhau thì ngân sách thu thập (crawl budget) của Google dành cho mỗi trang là khác nhau.

Giới hạn (limit) dung lượng crawl budget có thể tăng lên hoặc giảm đi dựa trên một số yếu tố sau:

+ Crawl health: Nếu website của bạn phản hồi Googlebot nhanh trong một khoảng thời gian thì giới hạn sẽ được tăng lên, nghĩa là sẽ đi thu thập thêm nhiều thông tin hơn trên website. Và ngược lại nếu website chậm lại hoặc lỗi máy chủ thì giới hạn sẽ bị giảm.

+ Tần suất cập nhật: Nếu website bạn thường xuyên cập nhật nội dung thì Google sẽ được ưu tiên hơn.

+ Liên kết: Cấu trúc liên kết nội bộ trong website phức tạp hay đơn giản? Càng phức tạp càng khiến cho việc giới hạn dung lượng ngân sách.

+ Đặt giới hạn trong Google Search Console: Chủ sở hữu website có thể làm giảm việc Googlebot thu thập dữ liệu (không khuyến nghị). Nhưng khi đặt cao hơn thì sẽ không tăng ngân sách thu thập.

+ Giới hạn thu thập dữ liệu: Google có hệ thống máy tính lớn nhưng không có nghĩa là vô hạn. Cho nên chúng cần ưu tiên phân bổ nguồn lực hợp lý đối với các website trên internet.

Vì sao Crawl Budget lại quan trọng với SEO?

the-important-of-crawl_budget

Nguồn: Bluewinston

Bạn có thể hiểu đơn giản là: Nếu Google không lập chỉ mục trang thì bạn sẽ không thể xếp hạng trên công cụ tìm kiếm được.

Nếu website bạn có số trang vượt ngân sách thu thập của Google thì sẽ có những trang mà Googlebot sẽ bỏ qua và không lập chỉ mục cho chúng.

Nhưng tin vui là phần lớn các website trên internet hiện nay không cần lo lắng về Crawl Budget. Google rất giỏi trong việc tìm kiếm và lập chỉ mục các trang web.

Một số trường hợp bạn cần lưu ý về ngân sách thu thập của Google:

  • Website lớn: Nếu bạn có một website lớn (thường là trang thương mại điện tử – ecommerce) với hơn 10.000 trang thì Googlebot sẽ gặp khó khăn trong việc tìm kiếm.
  • Thêm mới nhiều trang: Nếu bạn bất ngờ thêm vào website tại một thời điểm với hàng trăm trang thì bạn cần phải chú ý tới việc trang có được index không nhé.
  • Nhiều redirects: Điều hướng (redirects) hoặc chuỗi điều hướng (redirect chains) sẽ làm tiêu tốn rất nhiều crawl budget.

Vậy làm sao để có thể tối ưu được crawl budget một cách hiệu quả?

7 Cách tối ưu hóa Crawl Budget hiệu quả

1. Tối ưu tốc độ tải trang

Khi tối ưu được tốc độ tải trang (page speed) thì bạn sẽ giúp Googlebot thu thập thông tin nhiều trang hơn trong khoảng thời gian nhất định.

Google đã tuyên bố rằng:

“Tối ưu tốc độ tải trang sẽ cải thiện trải nghiệm của người dùng đồng thời tăng tốc độ thu thập dữ liệu”

Website bạn càng chậm thì bạn càng làm mất đi thời gian thu thập giá trị của Googlebot.

Cho nên trong một khoảng thời gian bạn muốn Googlebot thu thập nhiều trang nhất, thì phải cho nó đi một cách nhanh nhất qua các trang thôi.

quick-load-means-more-time-to-index

Nguồn: BacklinkO

Để kiểm tra tốc độ tải trang cũng như các gợi ý để tối ưu bạn có thể sử dụng công cụ PageSpeed Insights của Google nhé.

Và bạn nên ưu tiên tối ưu phiên bản Mobile trước.

pagespeed-insights

2. Sử dụng liên kết nội bộ

Googlebot sẽ ưu tiên những trang mà chúng có lượng lớn liên kết nội bộ (internal link) và liên kết ngoài (external link).

Mặc dù bạn rất muốn trên tất cả các trang trên website đều có backlinks trỏ về nhưng điều này rất khó khả thi ở thực tế. Vì rất khó để bạn có được 1 backlinks.

Cho nên liên kết nội bộ (internal link) là chìa khóa tiếp theo bạn nắm được trong tay.

Liên kết nội bộ sẽ giúp bạn đưa Googlebot đi đến các trang khác nhau trên website – những nơi bạn muốn Google lập chỉ mục.

internal-links-send-googlebot

Nguồn: BacklinkO

Một thủ thuật nữa bạn có thể sử dụng đó là: Bạn sẽ lấy những website có nhiều lưu lượng truy cập (traffic) nhất hiện tại để liên kết nội bộ tới những trang bạn cần thu thập thông tin.

Để tìm được trang có lưu lượng truy cập nhiều nhất bạn sử dụng Google Analytics hoặc Ahrefs nhé.

google-analytics

3. Cấu trúc website phẳng

Theo Google:

“Các URLs có mức uy tín (nổi tiếng) cao trên internet có xu hướng được thu thập thông tin thường xuyên hơn để giữ chúng trong trạng thái tươi mới trong bộ chỉ mục của chúng tôi”

Nói cách khác.

Sự uy tín (nổi tiếng) = Sức mạnh thẩm quyền của một liên kết.

Đây chính là lý do bạn cần phải có cấu trúc website phẳng.

Với một cấu trúc website phẳng thì dòng chảy sức mạnh sẽ đi một cách dễ dàng hơn giữa các trang.

Từ đó sẽ giúp cho Googlebot dễ dàng ưu tiên hơn trong việc thu thập và lập chỉ mục các trang trên website.

flat-architecture-increase-link-authority

Nguồn: BacklinkO

Một điều bạn cần lưu ý là không được để độ sâu nội dung quá 4.

Tức là bất kỳ nội dung nào trên website của bạn thì từ trang chủ cũng không mất quá 4 lần click để đến.

Điều này sẽ giúp Googlebot tiết kiệm crawl budget hơn nhiều.

4. Tránh trang mồ côi (Orphan Pages)

Orphan pages là những trang trên website mà không có liên kết nội bộ hay liên kết ngoài nào trỏ tới.

avoid-unlinked-orphan-pages

Nguồn: BacklinkO

Googlebot không thể nào tìm đến trang mồ côi nếu không có liên kết nào trỏ tới.

Có thể nếu bạn là website cực kỳ uy tín và nổi tiếng thì sẽ được ưu tiên lập chỉ mục cho những trang này nhưng phần lớn chỉ là website mới và độ uy tín thấp.

Cho nên để tối ưu crawl budget bạn cần phải trỏ ít nhất một liên kết nội bộ hoặc liên kết ngoài tới tất cả các trang trên website.

Để tìm trang mồ côi bạn có thể sử dụng Plugins Yoast SEO nhé.

orphaned-content

5. Nội dung trùng lặp (Duplicate content)

Nội dung trùng lặp trên website là một trong những yếu tố ảnh hưởng tới ngân sách thu thập của Google.

Đây cũng chính là điều mà Google đã thông báo, mình có chụp ở hình dưới.

factor-affecting-crawl-budget

Lý do bởi Google không hề muốn phí nguồn lực để đi thu thập và lập chỉ mục nhiều trang nhưng nội dung trùng lặp.

Để tìm nội dung trùng lặp trên website bạn sử dụng Siteliner nhé. Bạn cần phải đảm bảo chỉ số nội dung trùng lặp dưới 10% là tốt nhất.

duplicate-content-rate

Bạn cần phải đảm bảo rằng mỗi nội dung trên website phải độc nhất, giá trị, chất lượng đối với người đọc. Điều này cũng có nghĩa rằng website chưa nội dung ít giá trị thì việc Googlebot không ưu tiên lập chỉ mục là điều đương nhiên.

Điều này rất khó đối với những trang thương mại điện tử nhưng điều này là việc cần phải làm khi bạn muốn tối ưu ngân sách thu thập.

Gợi ý: Đối với trang thương mại điện tử bạn hãy nghiên cứu sử dụng thẻ rel=canonical để tránh trùng lặp nội dung nhé.

6. Sử dụng Robots.txt

Robots.txt là một tiêu chuẩn quy định cách Googlebot thu thập thông tin trên website của bạn.

Việc sử dụng hay chỉnh sửa robots.txt rất đơn giản, bạn có thể thao tác thủ công hoặc sử dụng plugin hỗ trợ.

Robots.txt giúp bạn chặn hoặc cho phép trình thu thập thông tin của Google tới bất kỳ nội dung nào trên website.

robots.txt-file

Bạn có thể không cho phép Googlebot thu thập thông tin các trang như: Đăng nhập, đăng ký, liên hệ, giỏ hàng,…

robotstxt

Điều này sẽ giúp cho crawl budget có thêm nhiều thời gian hơn để đi thu thập nội dung quan trọng hơn trên website.

7. Trang không thể lập chỉ mục (non-indexable)

Nếu trang web của bạn chưa lượng lớn các trang không thể lập chỉ mục thì về cơ bản bạn đang khiến cho Googlebot gặp khó khăn trong việc phân loại những thông tin không có giá trị.

Những trang không thể lập chỉ mục có thể kể đến như:

  • Chuyển hướng (3xx)
  • Trang không thể tìm thấy (4xx)
  • Trang bị lỗi máy chủ (5xx)
  • Trang bị chặn bởi robots.txt

Bạn cần phải giảm tối thiểu số lượng trang này, nói cách khác là dọn rác cho website của bạn.

Để tìm thấy những trang này bạn có thể sử dụng Ahrefs hoặc Screaming Frog.

non-index-pages

Quá trình Crawl đã và sẽ thay đổi như thế nào?

Dưới đây là một số thay đổi quan trọng diễn ra trong một số năm trở lại đây và trong tương lai có thể xảy ra mà bạn cần biết

Mobile-First Indexing

Vào tháng 3.2018, Google đã tuyên bố rằng sẽ đặt trọng số index cho nội dung trên thiết bị di động lớn hơn trên máy tính. Với mục tiêu nâng cao trải nghiệm người dùng trên thiết bị di động.

Với sự thay đổi này Googlebot Desktop đã được thay thế bằng Googlebot Smartphone làm trình thu thập thông tin.

Không chỉ dừng ở đó, vào tháng 3.2021 Google đã thông báo rằng họ sẽ chuyển sang chỉ lập chỉ mục cho thiết bị di động cho tất cả các trang web.

Nếu có bất kỳ vấn đề gì trên thiết bị di động khi Googlebot thu thập thông tin thì nó sẽ không index nữa.

Sẽ càng khó khăn khi crawl website

how-many-websites

Với gần 2 tỷ trang web trên internet hiện nay thì việc thu thập dữ liệu và lập chỉ mục của Google là ngày một tốn kém.

Nếu tốc độ sắp tới sẽ phát triển mạnh hơn nữa thì Google sẽ có nhiều biện pháp thắt chặt hơn trong việc thu thập dữ liệu trên internet.

Chắc chắn rằng việc ưu tiên nội dung chất lượng và đảm bảo kết quả đúng với ý định tìm kiếm của người dùng là điều mà Google luôn luôn mong muốn hướng tới.

Để bắt kịp được xu thế bạn không thể đi lối tắt được, tất cả những nội dung bạn sản xuất ra phải đảm bảo trải nghiệm tốt nhất cho người dùng cả về mặt giá trị lẫn trực quan.

Tóm lại là

Crawl Budget là ngân sách bạn cần tối ưu bởi vì nó là điều kiện đầu tiên để bạn có thể xuất hiện trên công cụ tìm kiếm.

Trong tương lai có thể khái niệm crawl budget có thể thay đổi hoặc được thay thế bằng một công cụ khác vì Google không ngừng đem lại trải nghiệm tốt nhất cho người dùng.

Nhưng dù tất cả mọi thuật toán có thay đổi như thế nào đi chăng nữa thì cuối cùng vẫn là hướng đến người dùng. Bạn hãy luôn lấy điều này làm trọng tâm khi phát triển nội dung bây giờ lẫn sau này.

Nếu bạn thấy 7 cách tối ưu trên có thể áp dụng được cho website của bạn thì hãy làm luôn ngay bây giờ nhé.

Tuy mình nhấn mạnh rằng những cách trên sẽ tối ưu cho Crawl Budget nhưng nó đều có ảnh hưởng tích cực tới các mặt khác của SEO.

Hiện tại website bạn có đang gặp vấn đề về thu thập thông tin và lập chỉ mục nội dung không?

Nếu bạn đang còn thắc mắc muốn giải đáp hãy để lại comment phía dưới nhé.

Cảm ơn bạn đã đọc bài viết!

From Cường Dizi.

Fanpage: https://www.facebook.com/CuongDigitalPage/

Email: [email protected]

Nguồn tham khảo:

https://developers.google.com/search/blog/2009/08/optimize-your-crawling-indexing

https://www.contentkingapp.com/academy/crawl-budget/

https://backlinko.com/hub/seo/crawl-budget

https://www.searchenginejournal.com/crawl-budget-seo/378857/

https://www.searchenginejournal.com/technical-seo/crawl-budget/

https://www.botify.com/blog/crawl-budget-optimization

Spread the love ♥
Marketing for Beginner – Back to Basic
Posts created 31
5 1 vote
Article Rating
Subscribe
Thông báo về
guest
0 Comments
Phản hồi dưới bình luận này
Xem tất cả các bình luận

Nhập cụm từ bạn muốn tìm kiếm và nhấn Enter. ESC để hủy.

Content Protection by DMCA.com
0
Mình rất vui khi bạn để lại bình luậnx
()
x
Scroll-to-top