
Xem Tắt
File Robots.txt là gì? chỉ dẫn 3 cách tạo file robots.txt WordPress
File robots.txt giúp cho trình thu thập dữ liệu của các công cụ quãng biết được khả năng đề nghị thu thập dữ liệu từ những trang hoặc tệp trên website của bạn. Trong bài viết này mình sẽ san sớt một số kiến thức về file robots.txt và hướng dẫn tạo file robots.txt. Cùng xem ngay thôi!
1. File robots.txt là gì?
File robots.txt là một tập tin văn bản đơn giản có dạng đuôi mở mang txt. Tệp này là một phần của
- Flash sale là gì? Vào những ngày nào? Cách săn Flash sale thành công
- Màn hình Retina là gì? Thiết bị Apple nào sử dụng màn hình Retina? 122
- Đầu số 0915 là mạng gì? Ý nghĩa của đầu số 0915? Có phải số tài lộc?
- Tìm hiểu công nghệ màn hình HD BrightView LED Backlit 1
- Máy chủ (Server) là gì? Có mấy loại? Có vai trò như thế nào?
(REP) chứa một nhóm các tiêu chuẩn Web quy định cách Robot Web (hoặc Robot của các dụng cụ kiêng kị) thu thập dữ liệu trên web, truy cập, index nội dung và cung cấp nội dung đó cho người dùng.
File robots.txt giúp cho trình thu thập dữ liệu
2. Cú pháp của file robots.txt
Các cú pháp được xem là tiếng nói riêng của các tập tin robots.txt. Có 5 thuật ngữ phổ biến trong một file robots.txt, bao gồm như sau:
–
User-agent
: Phần này là tên của các trình thu thập, truy cập dữ liệu web. (thí dụ: Googlebot, Bingbot,…).
–
Disallow
: Được sử dụng để thông báo cho các User-agent không thu thập bất kì dữ liệu URL cụ thể nào. Mỗi URL chỉ được sử dụng 1 dòng Disallow.
–
Allow
(chỉ ứng dụng cho bộ từng Googlebot): Lệnh thực hiện thông tin cho Googlebot rằng nó sẽ truy cập một trang hoặc thư mục con. dù rằng các trang hoặc các thư mục con của nó có thể không được phép.
Những cú pháp được là tiếng nói riêng của các tập tin robots.txt
–
Crawl – delay
: thông báo cho các
biết rằng phải đợi bao lăm giây trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng bộ tìm kiếm Googlebot không thừa nhận lệnh này và bạn phải cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
–
Sitemap
: Được dùng để cung cấp các vị trí của bất kì Sitemap XML nào được liên kết với URL này. Lưu ý lệnh này chỉ được tương trợ bởi công cụ
, Ask, Bing và Yahoo.
3. Tại sao bạn cần tạo file robots.txt?
Việc tạo robots.txt cho website giúp bạn kiểm soát việc truy cập của các con Bots đến các khu vực nhất mực trên trang web. Điều này mang đến nhiều lợi ích cho bạn bởi nhiều lí do:
– Ngăn chặn nội dung trùng lặp xuất hiện trong website (các Robot Meta thường là lựa chọn tốt).
– Giữ một số phần của trang ở chế độ tây riêng.
– Giữ các trang kết quả cữ nội bộ không hiển thị trên SERP.
– Chỉ định vị trí của Sitemap.
– Ngăn các dụng cụ của Google Index một số tệp khăng khăng trên trang web của bạn (hình ảnh từ
, PDF, …).
– Dùng lệnh Crawl-delay để cài đặt thời kì, ngăn việc máy chủ của bạn bị quá tải khi các trình thu thập dữ liệu tải nhiều nội dung cùng một lúc.
Tạo robots.txt cho website giúp bạn kiểm soát việc truy cập của các con Bots
4. Những hạn chế của file robots.txt
File robots.txt mang nhiều ưu điểm như ở trên nhưng vẫn tồn tại một số nhược điểm nhất quyết:
– Một số công cụ cỡ có thể không hỗ trợ các lệnh trong tệp robots.txt.
– Mỗi trình thu thập dữ liệu sẽ phân tích cú pháp theo những cách riêng.
– Google vẫn có thể lập chỉ mục một trang bị tệp robots.txt chặn nếu có các trang web khác liên kết đến trang đó.
Một số hạn chế của file robots.txt cần lưu ý
5. File robots.txt hoạt động như thế nào?
Phương thức hoạt động của file robots.txt diễn ra như sau:
–
Bước 1
: Crawl (cào/phân tích) dữ liệu trên trang web để khám phá nội dung bằng cách đưa dụng cụ đi theo các liên kết từ trang này đến trang khác, sau đó thu thập dữ liệu thông qua hàng tỷ trang web khác nhau. Quá trình crawl dữ liệu này còn được biết đến với tên khác là “Spidering”.
–
Bước 2
: Index nội dung đó để đáp ứng đề nghị cho các dạo của người dùng. File robots.txt sẽ chứa các thông tin về cách các phương tiện của Google nhằm thu thập dữ liệu của website. Lúc này, các con bots sẽ được hướng dẫn thêm nhiều thông báo cụ thể cho quá trình này.
Phương thức hoạt động của file robots.txt
6. File robots.txt nằm ở đâu trên một website?
Khi bạn tạo website WordPress, web sẽ tự động tạo ra một file robots.txt đặt ngay bên dưới thư mục gốc của server.
tỉ dụ
: Nếu site của bạn đặt trong thư mục gốc của địa chỉ
abcdef.com
, bạn sẽ có thể truy cập file robots.txt ở đường dẫn
abcdef.com/robots.txt
, kết quả ban sơ sẽ hao hao như sau:
Trong đó:
–
User-agent: *
có tức thị lệ luật được vận dụng cho mọi loại bots trên khắp nơi trên website. Trong trường hợp này, file này sẽ nói cho bots biết là chúng không được phép vào trong file thư mục wp-admin và wp-includes.
Vị trí file robots.txt trên một website
7. Làm thế nào để kiểm tra website có file robots.txt không?
Để rà website có file robots.txt không, bạn có thể thực hiện theo các bước dưới đây:
Nhập
Root Domain
(Ví dụ:
abcdef.com
) Chèn
/robots.txt
vào cuối (Ví dụ: abcdef.com/robots.txt) Nhấn
Enter
.
Chèn abcdef.com/robots.txt
8. quy tắc nào cần được bổ sung vào trong file robots.txt WordPress?
File robots.txt WordPress đều xử lý một luật lệ tại một thời điểm. Tuy nhiên, nếu bạn muốn áp dụng các lệ luật khác nhau cho các bot khác nhau thì bạn chỉ cần thêm từng bộ lề luật trong phần khai báo User-agent cho mỗi bot.
tỉ dụ: Nếu bạn muốn tạo một luật lệ ứng dụng cho thảy các bot và một lệ luật khác chỉ áp dụng cho Bingbot, bạn có thể thực hành như sau:
Từ đó, ắt các bot sẽ bị chặn truy cập / wp-admin / nhưng Bingbot sẽ bị chặn truy cập toàn bộ trang web của bạn.
Thêm từng bộ quy tắc trong phần khai báo User-agent cho mỗi bot
9. 3 Cách tạo file robots.txt WordPress đơn giản
Trên thực tiễn, tạo robots.txt WordPress giúp các nhà quản trị web linh hoạt, chủ động hơn trong việc cho phép hay không cho các con bot của công cụ Google index một số phần nào đó trong trang của mình.
Nếu sau khi kiểm tra, bạn nhận thấy website của mình không có tệp robots.txt hay đơn giản là bạn đang muốn thay đổi tệp robots.txt của mình. Dưới đây là 3 cách tạo robots.txt cho WordPress:
Cách 1: sử dụng Yoast SEO
Bước 1
: Đăng nhập vào website của bạn trên WordPress, khi đăng nhập vào sẽ thấy giao diện của trang
WordPress Dashboard
.
Bước 2
: Chọn mục
SEO
Chọn
Tools
.
Chọn Tools trong mục SEO
Bước 3
: Chọn
File editor
.
Chọn File editor
Như vậy, bạn sẽ thấy mục
robots.txt
và
.htaccess file
. Đây là nơi giúp bạn tạo file
robots.txt
.
Mục robots.txt và .htaccess file tạo file robots.txt
Cách 2: Qua bộ Plugin All in One SEO
Bạn có thể dùng bộ
Plugin All in One SEO
để tạo file robots.txt WordPress chóng vánh. Đây cũng là một plugin tiện ích cho WordPress đơn giản, dễ sử dụng.
Để tạo file robots.txt WordPress, bạn có thể thực hiện theo các bước sau:
Bước 1
: Truy cập giao diện chính của Plugin All in One SEO Pack.
Nếu bạn chưa có bộ Plugin, tải về
.
Bước 2
: Chọn
All in One SEO
Chọn
Feature Manager
Nhấp
Activate
cho mục
Robots.txt
.
Active cho mục robots.txt
Bước 3
: tạo dựng và điều chỉnh file
robots.txt WordPress
.
kiến lập và điều chỉnh file robots.txt WordPress
Cách 3: Tạo rồi upload file robots.txt qua FTP
Nếu bạn không muốn dùng plugin để tạo file robots.txt WordPress thì bạn có thể tự tạo file robots.txt thủ công cho WordPress của mình.
Để tạo file robots.txt WordPress bằng tay bằng phương pháp tạo rồi upload file robots.txt qua FTP, bạn có thể thực hành theo các bước sau đây:
Bước 1
: Mở
Notepad
hoặc
Textedit
để tạo mẫu file robots.txt WordPress.
Bước 2
: Mở
FTP
Chọn thư mục
public_html
Chọn file
robots.txt
Chọn
Upload
.
Upload file robots.txt qua FTP
10. Một số quy tắc khi tạo file robots.txt
Việc tạo file robots.txt cần phải lưu ý một số lề luật sau để không bị lỗi:
– Để được các con bot tìm thấy thì các file robots.txt WordPress phải được đặt trong các thư mục cấp cao nhất của trang web.
– File txt phân biệt chữ hoa và chữ thường, vì thế tệp phải được đặt tên là robots.txt (không phải Robots.txt hay robots.TXT,…).
– Không nên đặt /wp-content/themes/ hay /wp-content/plugins/ vào mục
Disallow
. Điều đó sẽ cản trở các công cụ nhóng chính xác về giao diện blog hay website.
– Một số User-agent chọn cách bỏ qua các file robots.txt chuẩn. Điều này khá phổ biến với các User-agent bất chính như Malware robots (bot của các đoạn mã độc hại), các trình Scraping địa chỉ Email.
Các quy tắc thường thấy khi tạo file robots.txt
– Các tệp robots.txt thường có sẵn và được công khai trên web và chỉ cần thêm /robots.txt vào cuối bất kì Root Domain để xem các chỉ thị của trang web đó. Điều này có nghĩa là bất kì ai cũng thấy các trang bạn muốn hoặc không muốn crawl. bởi thế, đừng sử dụng các tệp này để ẩn thông tin cá nhân của người dùng.
– Mỗi Subdomain trên một Root Domain sẽ dùng các file robots.txt biệt lập. Điều này có tức thị cả blog.example.com và example.com có các tệp robots.txt riêng. Đây được xem là cách tốt nhất để chỉ ra vị trí của bất kì sitemaps nào được kết liên với domain ở cuối tệp robots.txt.
Đừng dùng các tệp robots.txt để ẩn thông báo cá nhân chủ nghĩa của người dùng
11. Một số lưu ý khi sử dụng file robots.txt
Khi sử dụng file robots.txt, bạn cần lưu ý một số điểm như sau:
– Các liên kết trên trang bị chặn bởi việc robots.txt sẽ không được các bots theo dõi, trừ khi các link này có kết liên với các trang khác. Nếu không, các tài nguyên được kết liên có thể sẽ không được thu thập và lập chỉ mục.
– Link juice sẽ không được truyền từ các trang bị chặn đến các trang đích. thành ra, nếu muốn dòng sức mạnh Link juice truyền qua các trang này thì hãy dùng một phương pháp khác thay vì tạo robots.txt WordPress.
– Không nên dùng file robots.txt để ngăn dữ liệu mẫn cảm như thông tin người dùng riêng tư xuất hiện trong kết quả SERP bởi vì trang web chứa thông tin cá nhân này có thể liên kết với nhiều trang web khác. Do đó các con bots sẽ bỏ quá các chỉ thị của tệp robots.txt trên Root Domain hay trang chủ của bạn.
Những lưu ý khi dùng file robots.txt
– Nếu muốn chặn trang web khỏi các kết quả cỡ, hãy dùng một phương pháp khác thay vì tạo file robots.txt cho WordPress như dùng
mật khẩu bảo vệ
hay
Noindex Meta Directive
. Một số công cụ kiếm có rất nhiều User-agent chả hạn Google dùng Googlebot cho các chừng miễn phí và Googlebot-Image cho các lóng hình ảnh.
– Hầu hết các User-agent từ cùng một phương tiện đều tuân theo một lệ luật. Do đó, bạn không cần chỉ định các lệnh cho từng User-agent. Tuy nhiên, việc làm này vẫn có thể giúp bạn điều chỉnh được cách Index nội dung trang web.
– Các phương tiện lóng sẽ lưu trữ nội dung file robots.txt WordPress. Tuy nhiên nó vẫn thường cập nhật nội dung trong bộ nhớ cache chí ít một lần một ngày. Nếu bạn đổi thay tệp và muốn cập nhật tệp của mình nhanh hơn thì hãy dùng ngay chức năng
Gửi
của
.
Không cần chỉ định các lệnh cho từng User-agent
12. Câu hỏi thường gặp về robots.txt
kích tấc tối đa của file robots.txt là bao nhiêu?
giải đáp: kích tấc tối đa của file robots.txt
Khoảng 500 kilobyte.
File robots.txt WordPress nằm ở đâu trên website?
Trả lời: File robots.txt WordPress nằm tại vị trí domain.com/robots.txt.
Làm cách nào để chỉnh sửa robots.txt WordPress?
đáp: Bạn có thể thực hiện theo cách thủ công hoặc dùng một trong nhiều plugin WordPress SEO như Yoast, cho phép bạn chỉnh sửa robots.txt từ WordPress backend.
Điều gì xảy ra nếu Disallow vào nội dung Noindex trong robots.txt?
Trả lời: Nếu Disallow vào nội dung Noindex trong robots.txt thì Google sẽ không bao giờ thấy lệnh Noindex vì nó không thể Crawl dữ liệu trang.
Những câu hỏi thường gặp về robots.txt
Làm sao tạm ngừng quơ hoạt động thu thập dữ liệu trang web?
Trả lời: Bạn có thể tạm ngừng tuốt hoạt động thu thập dữ liệu bằng cách trả về một mã kết quả HTTP 503 cho mọi URL, bao gồm cả tệp robots.txt. Bạn không nên thay đổi tệp robots.txt để chặn hoạt động thu thập dữ liệu.
Điều gì sẽ xảy ra nếu bạn không có tệp robots.txt?
Trả lời: Nếu tệp robots.txt bị thiếu, trình thu thập thông báo của dụng cụ kiếm giả thử rằng tất các trang có sẵn trên trang web của bạn đều ở chế độ công khai và nó có thể được thu thập dữ liệu , sau đó thêm vào chỉ mục của nó.
Điều gì sẽ xảy ra nếu robots.txt không được định dạng tốt?
đáp: Điều này phụ thuộc vào vấn đề: Nếu các phương tiện tầng chẳng thể hiểu nội dung của tệp tin vì nó bị định cấu hình sai, họ vẫn truy cập vào trang web và bỏ qua bất cứ điều gì trong robots.txt.
Không nên thay đổi tệp robots.txt để chặn hoạt động thu thập dữ liệu
Hy vọng sau khi tham khảo bài viết này bạn đã có những tri thức về file Robots.txt
và chỉ dẫn 3 cách tạo file robots.txt WordPress. Cám ơn các bạn đã theo dõi bài viết, hẹn gặp lại các bạn ở những bài viết tiếp theo!
Nguồn: https://quatangtiny.com
Danh mục: Giáo dục - Đào tạo