robots-txt

Robots.txt Là Gì – Cách Tạo. Sử Dụng Và Sai Lầm Khi Triển Khai

Robots.txt là gì?

Robots.txt là một tập tin cho phép hoặc không cho phép công cụ tìm kiếm crawl (thu thập dữ liệu) một trang hoặc một phần nhất định của website.

Robots.txt là một phần của robots exclusion protocol (REP) – là một nhóm các tiêu chuẩn quy định cách robots thu thập dữ liệu web, truy cập và lập chỉ mục nội dung.

REP bao gồm các thành tố như: thẻ meta robots, trang (page), thư mục con (subdirectory), cách xử lý các liên kết (follow, nofollow),…

Các công cụ tìm kiếm có 2 chức năng chính:

+ Crawl (cào/ phân tích) thông tin dữ liệu trên website để thu thập nội dung.

+ Index (lập chỉ mục) nội dung đó lên công cụ tìm kiếm phục vụ cho người dùng

Để các công cụ tìm kiếm crawl dữ liệu của website thì chúng sẽ đi từ liên kết này qua liên kết khác, quá trình này gọi là spidering.

Khi đến 1 website thì các con Bots của công cụ tìm kiếm sẽ đọc file robots.txt đầu tiên.

Hầu hết các công cụ tìm kiếm (Google, Bing, Yahoo,…) đều có thể nhận ra và tuân thủ yêu cầu từ Robots.txt.

Lưu ý thêm bạn cần biết về robots.txt:

+ Mỗi website chỉ có duy nhất 1 file robots.txt

+ Subdomain và Domain phải có các tệp robots.txt riêng biệt.

+ Tệp robots.txt bắt buộc phải nằm ở thư mục cấp cao nhất của website. Ví dụ: domain.com/robots.txt (bạn có thể đọc thêm phần dưới mà Google cung cấp)

google-explain-robots-file-located

Vì sao Robots.txt lại quan trọng?

robots.txt-file

Phần lớn website không cần sử dụng Robots.txt

Bởi vì Google thường có thể tìm thấy và lập chỉ mục những trang quan trọng trên website của bạn.

Và chúng cũng đã tự động không lập chỉ mục những trang không quan trọng và các phiên bản trùng lặp của trang trên website vì ngân sách crawl là giới hạn.

Nhưng dưới đây là 3 lý do quan trọng bạn cần phải sử dụng Robots.txt:

1. Chặn trang: Đôi khi bạn muốn chặn một vài trang trên website không muốn Google index chúng.

Đó có thể là trang đang trong quá trình xây dựng, trang sau khi đăng nhập, trang không có giá trị, trang quản trị hệ thống, trang hỗ trợ hỏi đáp các vấn đề kỹ thuật,…

Đây là những trang bạn không muốn người dùng vào qua công cụ tìm kiếm.

Bạn sẽ sử dụng robots.txt để chặn những trang này để công cụ tìm kiếm không thu thập thông tin và lập chỉ mục.

Điều này sẽ giúp bạn ngăn được nội dung trùng lặp trên các công cụ tìm kiếm (SERPs)

2. Tối đa ngân sách crawl: Nếu bạn đang gặp khó khăn trong việc lập chỉ mục trang web, thì bạn có thể đã gặp vấn đề về ngân sách crawl (crawl budget).

Ngân sách crawl là số lượng trang tối đa mà Googlebot thu thập dữ liệu và lập chỉ mục trong một khoảng thời gian nhất định.

Bằng việc chặn các trang web không cần thiết qua robots.txt, bạn có thể điều hướng được Googlebot ưu tiên crawl và index những trang quan trọng trước.

3. Chặn resources: Resources có thể kể đến như: hình ảnh, video, file PDF, audio,…

Bạn sẽ không muốn Google thu thập dữ liệu và lập chỉ mục những thông tin trên vì nó là một lượng lớn dữ liệu không cần thiết đưa lên công cụ tìm kiếm.

Tóm lại là, Robots.txt sẽ giúp bạn chặn những trang web bạn không muốn công cụ tìm kiếm crawl.

Bạn có thể kiểm tra bao nhiêu trang web đã được Googlebot index qua công cụ Google Search Console

coverage-google-search-console

Nếu chỉ số Valid phía trên tương đương với số lượng trang web bạn muốn index thì bạn không cần quan tâm đến file robots.txt.

Nhưng nếu chỉ số này có sự chênh lệch cao hơn so với bạn mong muốn, thì bạn sẽ phải cần sử dụng robots.txt cho website.

Tuy nhiên nếu không có phần nào trên website bạn muốn chặn công cụ tìm kiếm thì bạn có thể không cần đến tệp robots.txt.

Thuật ngữ cơ bản của file Robots.txt

google-sending-notifications-to-websites

Dưới đây là 5 thuật ngữ cơ bản bạn cần nắm trong file robots.txt:

+ User-agent: Đây là Bots thu thập của công cụ tìm kiếm mà bạn muốn hướng dẫn thu thập thông tin. Danh sách bạn có xem tại đây.

Mỗi Bots thu thập có chức năng khác nhau nếu bạn tìm hiểu sâu hơn thì có thể điều chỉnh cách thu thập dữ liệu của từng con Bots sao cho phù hợp nhất.

+ Disallow: Đây là lệnh được sử dụng để yêu cầu Bots không được phép thu thập dữ liệu từ một trang hay một phần của website. Chỉ cho phép mỗi dòng 1 url.

+ Allow (chỉ áp dụng cho Googlebot): Đây là lệch cho phép Googlebot có quyền truy cập trang hoặc một phần của website mà nó có thể không được phép.

+ Crawl-delay: Đây là lệnh yêu cầu Bots đợi một khoảng thời gian tùy chọn trước khi thu thập thông tin (Googlebot sẽ không thực hiện lệnh này).

Điều này ngăn việc máy chủ của bạn làm việc quá công suất khi các trình thu thập dữ liệu tại nhiều thông tin cùng lúc.

+ Sitemap: Được sử dụng để chỉ định vị trí của XML sitemaps của website. (chỉ hỗ trợ Google, Ask, Bing, Yahoo)

Các cách tạo file Robots.txt cho Website

robots-txt-1

1. Tạo thủ công

Việc đầu tiên bạn cần làm là tạo ra một file Robots.txt thủ công.

Bạn có thể sử dụng Microsoft Word hoặc Text Document để tạo file.

Không cần biết bạn tham khảo từ hướng dẫn nào nhưng cuối cùng cấu trúc vẫn là:

User-agent: X
Disallow: Y

X là con Bots cụ thể của công cụ tìm kiếm bạn đề cập (Googlebot là một ví dụ)

Y là trang hoặc phần tử bạn mong muốn chặn công cụ tìm kiếm thu thập dữ liệu.

Ví dụ:

User-agent: Googlebot
Disallow: /videos

Cấu trúc phía trên sẽ khiến cho Googlebot không thực hiện thu thập dữ liệu tập tin videos trên website.

Bạn có thể sử dụng dấu “ * “ để chấp nhận cho tất cả con Bots của tất cả các công cụ tìm kiếm truy cập file robots.txt

Ví dụ:

User-agent: *
Disallow: /videos

Cấu trúc phía trên sẽ khiến cho tất cả con Bots không thực hiện thu thập dữ liệu tập tin videos.

Trường hợp nếu bạn muốn chặn không được phép crawl website của bạn thì file robots.txt có dạng:

User-agent: *
Disallow: /

Còn nếu bạn muốn chặn Googlebot 1 trang cụ thể trên website thì sẽ có dạng như sau:

User-agent: Googlebot
Disallow: /subfolder/page.html

Hoặc có những cấu trúc phức tạp hơn như file robots.txt ở phía dưới của Moz.

moz-robots-txt

Google đã cho ra một hướng dẫn chi tiết. Giúp bạn hiểu rõ nguyên tắc để chặn hoặc cho phép công cụ tìm kiếm thu thập dữ liệu các trang web trên website.

useful-rules

Sau khi tạo xong file robots.txt bạn upload lên website qua FTP (File Transfer Protocol tức là “Giao thức truyền tập tin”) – nếu bạn nào học về code sẽ hiểu.

Sau khi đã kết nối thành công, bạn chuyển file robots.txt vào thư mục root.

Lưu ý: Không nên sử dụng robots.txt nhằm với mục đích chặn các dữ liệu nhạy cảm (ví dụ thông tin riêng tư của người dùng)

Vì nếu có người cố ý truy cập file robots.txt thì họ vẫn có thể truy cập các dữ liệu này một cách trực tiếp.

Bởi vì robots.txt chỉ chặn công cụ tìm kiếm chứ không chặn việc truy cập trực tiếp.

Để chặn các dữ liệu nhạy cảm này bạn cần thiết lập mật khẩu hoặc phương pháp khác nhé.

2. Sử dụng Plugins WordPress

Bạn có thể tạo, chỉnh sửa file robots.txt thông qua plugin trên trình quản lý wordpress một cách đơn giản.

Công cụ mà mình sử dụng chắc hẳn nhiều bạn đã biết đó là Yoast SEO.

Trước tiên bạn cài plugin Yoast SEO trên WordPress.

add-yoast-seo-plugin

Sao khi bạn cài đặt và activated công cụ thì vào phần SEO -> Tools -> File editor

Chức năng File editor chỉ xuất hiện khi bạn cho phép chỉnh sửa file trên wordpress thông qua FTP (File Transfer Protocol tức là “Giao thức truyền tập tin”) nên bạn hãy lưu ý nhé.

Nếu bạn không hiểu về code thì hãy nhờ một bạn khác để hỗ trợ phần này.

file-editor-yoast-seo

Nếu bạn chưa có file robots.txt thì Yoast SEO sẽ cho bạn lựa chọn để tạo file này. Bạn nhấp vào “Create robots.txt file”

create-robotstxt

Sau khi bạn tạo file thì bây giờ bạn có thể chỉnh sửa trực tiếp một cách dễ dàng nội dung của file robots.txt như hình dưới.

file-robotstxt

Khi hoàn thành bạn hãy vào: domain.com/robots.txt để kiểm tra nhé.

Ngoài ra bạn có thể sử dụng các plugin khác như: Rank Math, All in One SEO

Lưu ý quan trọng khi sử dụng Robots.txt

1. Dễ tìm kiếm file Robots.txt

Khi bạn đã tạo được file robots.txt thì bạn cần đưa nó lên website.

Bạn có thể đưa file robots.txt vào bất kỳ thư mục chính nào của website.

Nhưng để phát huy tối đa hiệu quả của file robots.txt cũng như Googlebot có thể dễ dàng tìm thấy file thì bạn nên đặt ở: domain.com/robots.txt

Ví dụ ở website này của mình.

robots-txt-cuongdigital

Công cụ tìm kiếm sẽ lưu dữ liệu robots.txt vào bộ nhớ cache, dữ liệu này thường sẽ được Google cập nhật mỗi ngày.

Lưu ý: file robots.txt sẽ phân biệt chữ hoa và chữ thường cho nên hãy đảm bảo bạn không sử dụng viết hoa mà sử dụng viết thường ở tên file.

Không được phép đặt tên là: Robots.txt hay robots.TXT

2. Kiểm tra lỗi Robots.txt

Việc bạn thiết lập file robots.txt đúng chuẩn là một điều cực kỳ quan trọng.

Chỉ cần 1 lỗi nhỏ thôi cũng khiến toàn bộ website của bạn sẽ không hiển thị được trên Google.

May mắn là bạn không cần phải là một người code giỏi để thiết lập file này chuẩn.

Có một số công cụ bạn có thể sử dụng để kiểm tra điều này. Ví dụ TechnicalSEO robots.txt Validator hoặc Ryte robots.txt Test Tool

Nếu có bất kỳ lỗi nào thì công cụ sẽ chỉ ra cho bạn thấy.

robots-txt-check
robots-txt-test

Như bạn thấy ở trên thì mình có chặn Googlebot không được phép thu thập dữ liệu và lập chỉ mục trang WP (WordPress) admin.

Nếu website của bạn có sử dụng “tag” để phân loại bài viết thì bạn nên chặn bằng cách thêm một đoạn mã: Disallow: /tag/ vào robots.txt nhằm hạn chế việc có nội dung bị trùng lặp khi Google crawl và index.

3. Phân biệt Robots.txt và thẻ Meta Robots

Tại sao bạn lại cần phải dùng robots.txt trong khi có thể chặn trang không cho Googlebot index bằng cách sử dụng đoạn mã thẻ “noindex” gắn vào trang?

(Thẻ noindex là một trong những tham số của thẻ Meta Robots – mình chỉ muốn lấy 1 ví dụ điển hình)

Như mình có nói ở trên, đó là mã thẻ “noindex” rất khó có thể triển khai trên các file như video, PDF, audio,…

Mặt khác, nếu website của bạn là trong lĩnh vực thương mại điện tử thì việc bạn sử dụng robots.txt để chặn toàn bộ 1 phần của trang web thay vì đặt thủ công đoạn mã thẻ “noindex” vào từng trang.

Nếu bạn thực hiện đặt thiếu hoặc thừa cũng gây ra trường hợp lập chỉ mục của Google không chính xác.

Bạn cũng không hề muốn lãng phí crawl budget của Google.

Nếu bạn vẫn muốn sử dụng thẻ “noindex” và không thuộc các trường hợp trên thì cứ sử dụng bình thường.

Vì việc sử dụng loại thẻ này sẽ giúp bạn tránh được trường hợp bị lỗi file robots.txt khiến toàn bộ website bị chặn trên công cụ tìm kiếm.

4. Giới hạn của file Robots.txt

+ Robots.txt không áp dụng cho tất cả các công cụ tìm kiếm

Một số con Bots thu thập thông tin khác có thể không tuân theo file robots.txt.

Cho nên để chặn trang bạn muốn, tốt hơn hết nên sử dụng các phương pháp chặn khác ví dụ đặt mật khẩu cho trang.

+ Mỗi trình thu thập sẽ sử dụng những cú pháp khác nhau

Bạn cần phải nghiên cứu kỹ khi muốn tạo file robots.txt cho các nền tảng tìm kiếm khác nhau.

Mỗi cú pháp sẽ phù hợp cho mỗi nền tảng tìm kiếm nhất định.

+ [Quan trọng] Trang đã chặn, đã disallow trên robots.txt vẫn được lập chỉ mục nếu được liên kết từ các trang khác

Bởi vì robots.txt không thể chặn công cụ tìm kiếm lập chỉ mục (index) được mà chỉ bảo rằng không được phép thu thập dữ liệu (crawl) thôi.

Để chặn hoàn toàn trang đó trên công cụ tìm kiếm thì bạn hãy bảo vệ bằng mật khẩu, sử dụng thẻ noindex hoặc xóa trang luôn.

Tóm lại là

Bằng việc tạo và cài đặt file Robots.txt một cách hợp lý không chỉ giúp ích cho SEO mà còn hỗ trợ cho người dùng.

Nếu Bots của công cụ tìm kiếm được chỉ cho cách thu thập dữ liệu mà bạn mong muốn trên website, thì chúng sẽ giúp bạn hệ thống hóa và hiển thị web một cách tốt nhất trên các nền tảng tìm kiếm.

Thêm vào đó nữa là việc tạo file Robots.txt không mất quá nhiều thời gian. Bạn hoàn toàn có thể tạo thủ công cũng như tạo bằng công cụ có sẵn.

Nếu bạn bắt đầu một trang web mới mình khuyến khích bạn sử dụng robots.txt.

Hiện tại website của bạn có đang sử dụng file robots.txt không?

Sau khi đọc bài bạn còn thắc mắc nào khác nữa không hãy để lại comment bên dưới mình sẽ trả lời nhé.

Cảm ơn bạn đã đọc bài viết.

From Cường Dizi.

Facebook cá nhân: https://www.facebook.com/CuongNC.Digital/

Fanpage: https://www.facebook.com/CuongDigitalPage/

Email: [email protected]

Nguồn tham khảo:

https://moz.com/learn/seo/robotstxt

https://neilpatel.com/blog/robots-txt/

https://developers.google.com/search/docs/advanced/robots/intro

https://developers.google.com/search/docs/advanced/robots/create-robots-txt

https://backlinko.com/hub/seo/robots-txt

Spread the love ♥
Marketing for Beginner – Back to Basic
Posts created 31
5 1 vote
Article Rating
Subscribe
Thông báo về
guest
0 Comments
Phản hồi dưới bình luận này
Xem tất cả các bình luận

Nhập cụm từ bạn muốn tìm kiếm và nhấn Enter. ESC để hủy.

Content Protection by DMCA.com
0
Mình rất vui khi bạn để lại bình luậnx
()
x
Scroll-to-top