Skip to content

Thẻ Robots.txt là gì? ebook SEO adtechjsc

Robots.txt, tags từ khóa, thẻ mô tả (meta Description), nội dung trùng lặp (Duplicate Content)… là những khái niệm cơ bản mà các SEOer cần tìm hiểu khi bắt đầu – adtechjsc

 

Robots.txt hay thẻ robots exclusion protocol (REP) là một file
text mà người quản trị web tạo ra để hướng dẫn robot (bọ tìm kiếm của
công cụ tìm kiếm) làm thế nào để thu thập dữ liệu và index các pages
trên trang web của họ.

Mẫu code

Dưới đây là mẫu từng code hướng dẫn chi tiết về các thẻ robots.txt chặn bọ tìm kiếm

Chặn tất cả robot với tất cả các nội dung User-agent: *
Disallow: /
Chặn 1 robot với 1 folder User-agent: Googlebot
Disallow: /no-google/
Chặn 1 robot với 1 trang User-agent: Googlebot
Disallow: /no-google/blocked-page.html
Cho phép 1 robot vào 1 trang User-agent: *
Disallow: /no-bots/block-all-bots-except-rogerbot-page.html
User-agent: rogerbot
Allow: /no-bots/block-all-bots-except-rogerbot-page.html
Thông số sitemap User-agent: *
Disallow:
Sitemap: http://www.example.com/none-standard-location/sitemap.xml

Format tối ưu

Robots.txt cần được đặt ở thư mục gốc của tên miền để có thể phát huy tác dụng
Ví dụ:
 
Robots.txt cần được đặt ở thư mục gốc của tên miền
 

I. Khái niệm Robots.txt


Robots Exclusion Protocol (REP) là một nhóm các tiêu chuẩn web để điều
chỉnh hành vi Robot Web và lập chỉ mục cho công cụ tìm kiếm. REP bao gồm
những điều sau đây:
  • REP dùng để xác định chỉ thị thu thập thông tin cho
    robots.txt. Một số công cụ tìm kiếm hỗ trợ phần mở rộng như mô hình URI
    (thẻ wild).
  • REP còn được mở rộng để xác định các chỉ
    thị chỉ mục (REP tags) để sử dụng trong các yếu tố meta robot, tên gọi khác là “robot meta tag.” Khi đó, công cụ tìm kiếm hỗ trợ thêm thẻ REP
    với một Tag-X-Robots. Người quản trị web có thể sử dụng REP tag trong
    tiêu đề HTTP của các nguồn tài nguyên không phải HTML như tài liệu PDF
    hoặc hình ảnh.
  • Phiên bản mới đây từ Microformat rel-nofollow
    để xác định xem công cụ tìm kiếm nên xử lý thế nào với các liên kết có
    thuộc tính REL của một phần tử chứa giá trị “nofollow.”


II. Microformats


Cách hiển thị Index theo hình thức trang đặc biệt Microformats sẽ bỏ
qua các cài đặt cho các phần tử HTML ở trên trang. Phương pháp này đòi
hỏi phải có kỹ năng lập trình và hiểu biết tốt về các máy chủ web và
giao thức HTTP.


III. Mô hình kết hợp

Các mạng tìm kiếm như Google
và Bing đều sử dụng hai biểu thức thông thường mà có thể được sử dụng
để xác định các trang hoặc thư mục con muốn loại trừ. Hai ký tự là dấu
hoa thị (*) và dấu hiệu đồng đô la ($).

– * Là một ký tự đại diện cho chuỗi ký tự bất kỳ
– $ Phù hợp với kết thúc của URL

IV. Công khai thông tin
Công
khai thư mục robots.txt – Hãy biết rằng file robots.txt là một tập tin
công bố công khai. Người quản trị web có thể công khai cho tất cả mọi
người đều có thể nhìn thấy những thư mục mà họ không muốn bị thu thập dữ
liệu.

Điều này có nghĩa là nếu bạn có thông tin người dùng nhưng
không muốn công khai tìm kiếm, bạn nên sử dụng phương pháp an toàn hơn
để giữ khách truy cập xem bất kỳ trang nào bí mật mà không muốn lập chỉ
mục (chẳng hạn như mật khẩu bảo vệ).

V. Quy định quan trọng

1. Trong hầu hết các trường hợp, robot meta với các thông số “noindex, follow” nên được sử dụng như một cách để hạn chế thu thập thông tin hoặc chỉ số index.

2. Điều quan trọng cần lưu ý rằng các trình thu thập thông tin độc hại có
khả năng hoàn toàn bỏ qua robots.txt và như vậy, giao thức này không tạo
được một cơ chế bảo mật tốt.

3. Chỉ dùngmột “Disallow:” cho 1 dòng – cho mỗi URL.
4. Mỗi tên miền phụ của một tên miền gốc sẽ sử dụng các tập tin robots.txt khác nhau.
5. Google và Bing chấp nhận hai nhân vật biểu hiện cụ thể thường xuyên để loại trừ mẫu (* và $).
6. Các tên tập tin robots.txt là trường hợp nhạy cảm. Hãy sử dụng “robots.txt”, chứ không phải Robots.TXT “.

7. Khoảng trắng không được chấp nhận để thể hiện cách tách các tham số
truy vấn. Ví dụ, “/ category / / trang sản phẩm” sẽ không được chấp nhận
bởi robots.txt.

VI. Lợi ích của việc sử dụng tốt robots.txt cho các seoers

1. Chặn trang (Blocking page)

một số cách để ngăn chặn các công cụ tìm kiếm truy cập một tên miền nhất định

Có một số cách để ngăn chặn các công cụ tìm kiếm truy cập một tên miền nhất định:
2. Chặn với Robots.txt
Điều
này nói cho Google Spider không nên thu thập dữ liệu URL được nhắc tới,
nhưng cũng nói cho Google Spider rằng có thể giữ cho các trang trong
chỉ mục và hiển thị nó trong trong kết quả. (Xem hình ảnh của trang kết
quả của Google bên dưới)

3. Chặn bằng Meta ngăn lập chỉ mục (Block with Meta NoIndex)
Điều
này cho cho phép có thể truy cập, nhưng không được phép để hiển thị các
URL trong trang kết quả. (Đây là phương pháp được đề nghị)

4. Chặn bởi Nofollowing Liên kết (Block by Nofollowing Links)
Đây
gần như là cách làm kém hiệu quả nhất. Bởi vì vẫn có thể cho các công
cụ tìm kiếm khám phá các trang theo những cách khác. (Thông qua thanh
công cụ trình duyệt, các liên kết từ các trang khác, analytics, …)

VII. Tại sao sử dụng Robots Meta lại tốt hơn robots.txt

Dưới đây là một ví dụ về tập tin robots.txt của trang about.com. Chú ý rằng chúng đang chặn thư mục /library/nosearch/

ví dụ về tập tin robots.txt
Bây giờ nhận thấy điều gì sẽ xảy ra khi URL được tìm kiếm trong Google.

robots.txt: khi URL được tìm kiếm trong Google
Google
có 917 kết quả từ thư mục “disallowed”. Google Spider đã không thu
thập thông tin các URL, do đó, nó xuất hiện như một URL chứ không phải
là một danh sách kết quả mục tu-van

Hiểu rộng hơn trong SEO: Các mục tư vấn trong site ở trên được hiển thị những nội dung được index. Toàn bộ các nội dung được đánh giá là giống và liên quan “thuộc bản quyền” adtechjsc sẽ được hiển thị ở các trang tìm kiếm thứ 2 trở đi. Đây cũng giống như việc chúng ta sử dụng vệ tinh share (chia sẻ) thông tin.

Bản quyền thuộc về adtechjsc.com. Vui lòng trỏ link về bài viết gốc, ghi
rõ nguồn https://www.adtechjsc.com hoặc tên tác giả viết bài nếu các bạn copy từ bài
viết này

Leave a Reply

Your email address will not be published. Required fields are marked *