Cú pháp của tệp tin robots.txtNhững tinh giảm của tệp tin robots.txt3 biện pháp tạo file robots.txt Wordpress 1-1 giảnCâu hỏi thường gặp gỡ về robots.txt

Đã lúc nào bạn tưởng tượng làm sao một robot của mức sử dụng tìm kiếm có thể phân tích tài liệu của một website để index (lập chỉ mục) không?

Bạn đang cài đặt một website Wordpress? Đôi lúc bạn có nhu cầu Googlebot nhanh index trang web của khách hàng hoặc không index một trang cụ thể nào đó? Vậy làm cách nào bây giờ?

Tôi hoàn toàn có thể lập tức vấn đáp cho bạn: chế tạo file robots.txt cho WordPress ngay cùng luôn! Để gọi về file robots.txt và cách thức tạo, tôi sẽ đưa về cho bạn bài viết cực ích sau đây.

Bạn đang xem: Tạo file robot.txt cho website

Bài viết này sẽ lí giải cho bạn:

Hiểu rõ tư tưởng file robots.txt là gì?Cấu trúc cơ bạn dạng của một file robots.txtCó những lưu ý nào khi sinh sản lập robots.txt WordPressTại sao phải bắt buộc robots.txt cho website của bạnCách sản xuất lập 1 file hoàn chỉnh cho website của bạn

Bắt đầu mày mò nhé!


File robots.txt là gì?

File robots.txt là một trong những tập tin văn bản đơn giản gồm dạng .txt. Tệp này là một phần của Robots Exclusion Protocol (REP) chứa một đội các tiêu chuẩn Web quy định phương pháp Robot website (hoặc Robot của các công ráng tìm kiếm) thu thập dữ liệu trên web, truy cập, index ngôn từ và hỗ trợ nội dung đó cho tất cả những người dùng.


*
Tìm đọc về robots.txt lập chỉ mục mang lại website của bạn

REP cũng bao hàm các lệnh như Meta Robots, Page-Subdirectory, Site-Wide Instructions. Nó hướng dẫn các công nỗ lực của Google xử lí các liên kết. (ví dụ: Follow tuyệt Nofollow link).

Trên thực tế, tạo thành robots.txt Wordpress giúp các nhà cai quản trị web linh hoạt, dữ thế chủ động hơn vào việc có thể chấp nhận được hay không cho những con bot của hiện tượng Google Index một trong những phần nào kia trong trang của mình.

Cú pháp của file robots.txt

Các cú pháp được coi là ngôn ngữ riêng của những tập tin robots.txt. Gồm 5 thuật ngữ phổ cập mà các bạn sẽ bắt gặp mặt trong một tệp tin robots.txt. Bọn chúng bao gồm:

User-agent: Phần này là tên của các trình thu thập, truy vấn dữ liệu web. (ví dụ: Googlebot, Bingbot,…)Disallow: Được thực hiện để thông báo cho các User-agent không thu thập bất kì dữ liệu URL rõ ràng nào. Từng URL chỉ được thực hiện 1 mẫu Disallow.Allow (chỉ vận dụng cho bọ search kiếm Googlebot): Lệnh thực hiện thông báo cho Googlebot rằng nó sẽ truy vấn một trang hoặc thư mục con. Tuy vậy các trang hoặc những thư mục nhỏ của nó hoàn toàn có thể không được phép.

Pattern – Matching

Trên thực tiễn các file robots.txt Wordpress khá phức hợp để hoàn toàn có thể chặn hoặc có thể chấp nhận được các con bot vày chúng cho phép sử dụng bản lĩnh Pattern-Matching để khái quát một loạt những tùy chọn của URL.

Tất cả những công thế của Google với Bing được cho phép sử dụng 2 biểu thức bao gồm để khẳng định các trang hoặc thư mục nhỏ mà SEO mong muốn loại trừ. Nhị kí tự này là vệt hoa thị (*) và cam kết hiệu đô la ($).

* là kí tự đại diện thay mặt cho bất kì chuỗi kí tự làm sao – tức là nó được áp dụng cho mọi nhiều loại Bots của những công cầm Google.$ là kí từ bỏ khớp cùng với phần cuối của URL.

Định dạng cơ bản của tệp tin robots.txt

Tệp robots.txt có định dạng cơ bản sau:

User-agent:Disallow:Allow:Crawl-delay:Sitemap:Tuy nhiên, chúng ta vẫn rất có thể lược bỏ những phần Crawl-delay cùng Sitemap. Đây là định hình cơ phiên bản của robots.txt Wordpress hoàn chỉnh. Mặc dù trên thực tế thì tệp tin robots.txt chứa được nhiều dòng User-agent cùng nhiều thông tư của người tiêu dùng hơn.

Chẳng hạn như những dòng lệnh: Disallow, Allow, Crawl-delay, … Trong tệp tin robots.txt, bạn chỉ định mang đến nhiều nhỏ bot không giống nhau. Mỗi lệnh hay được viết đơn nhất cách nhau do 1 dòng.

Trong một file robots.txt Wordpress chúng ta có thể chỉ định những lệnh cho những con bot bằng phương pháp viết liên tục không biện pháp dòng. Tuy nhiên trong trường hòa hợp một tệp tin robots.txt có khá nhiều lệnh đối với 1 loại bot thì mặc định bot sẽ tuân theo lệnh được viết rõ và đầy đủ nhất.

File robots.txt chuẩn

Để chặn tất cả các website Crawler ko được tích lũy bất kì dữ liệu nào bên trên website bao hàm cả trang chủ. Bọn họ hãy áp dụng cú pháp sau:

User-agent: *Disallow: /Để cho phép tất cả những trình thu thập thông tin truy vấn vào toàn bộ các văn bản trên website bao gồm cả trang chủ. Họ hãy sử dụng cú pháp sau:

User-agent: *Disallow: Để ngăn trình thu thập, tìm kiếm tin tức của Google (User-agent: Googlebot) không thu thập bất kì trang nào tất cả chứa chuỗi URL www.example.com/example-subfolder/. Họ hãy áp dụng cú pháp sau:

User-agent: GooglebotDisallow: /example-subfolder/Để chặn trình tích lũy thông tin của Bing (User-agent: Bing) tránh thu thập thông tin trên trang cụ thể tại www.example.com/example-subfolder/blocked-page. Họ hãy sử dụng cú pháp sau:

User-agent: BingbotDisallow: /example-subfolder/blocked-page.html

Ví dụ mang đến file robots.txt chuẩn

Dưới đây là ví dụ về tệp robots.txt hoạt động cho trang web www.example.com:

User-agent: *Disallow: /wp-admin/Allow: /Sitemap: https://www.example.com/sitemap_index.xmlTheo bạn, kết cấu file robots.txt có chân thành và ý nghĩa như vậy nào? Để tôi giải thích. Điều này chứng tỏ bạn được cho phép toàn bộ các công cố kỉnh của Google theo liên kết www.example.com/sitemap_index.xml để tìm đến file robots.txt và phân tích. Thuộc index tổng thể các dữ liệu trong số trang trên website của công ty ngoại trừ trang www.example.com/wp-admin/.

Đừng quên đk học chơi luôn 3 ngày miễn phí tổn khóa Entity Mastermind – Năng cấp tài năng SEO khiến cho bạn X10 Organic Traffic sau 6 tháng.


*

Tại sao bạn phải tạo file robots.txt?

Việc tạo thành robots.txt đến website góp bạn kiểm soát điều hành việc truy vấn của những con Bots đến các khu vực nhất định bên trên trang web. Cùng điều này hoàn toàn có thể vô cùng nguy hại nếu chúng ta vô tình không đúng một vài thao tác khiến Googlebot cần yếu index trang web của bạn. Tuy nhiên, việc tạo file robots.txt vẫn thật sự có ích bởi nhiều lí do:

Giữ một trong những phần của trang ở cơ chế riêng tưGiữ những trang kết quả tìm tìm nội bộ không hiển thị trên SERPChỉ định vị trí của SitemapNgăn những công chũm của Google Index một trong những tệp nhất thiết trên trang web của bạn (hình ảnh, PDF, …)Dùng lệnh Crawl-delay để cài đặt thời gian. Điều này vẫn ngăn vấn đề máy chủ của người sử dụng bị quá cài khi các trình tích lũy dữ liệu tải những nội dung và một lúc.

Nếu bạn không muốn ngăn những Web Crawler tiến hành tích lũy dữ liệu trường đoản cú website thì bạn hoàn toàn không nên tạo robots.txt.


*

Những giảm bớt của tệp tin robots.txt

1. Một số trong những trình chăm bẵm tìm tìm không cung cấp các lệnh trong tệp robots.txt

Không cần công cầm tìm kiếm nào cũng trở nên hỗ trợ các lệnh vào tệp robots.txt, vậy đề nghị để bảo mật thông tin dữ liệu, cách rất tốt bạn yêu cầu làm là đặt mật khẩu cho những tệp riêng tứ trên thiết bị chủ.

2. Mỗi trình dữ liệu có cú pháp phân tích tài liệu riêng

Thông thường đối với các trình tài liệu uy tín đã tuân theo quy chuẩn chỉnh của các lệnh vào tệp robots.txt. Dẫu vậy mỗi trình tìm kiếm sẽ sở hữu được cách giải trình dữ liệu khác nhau, một số trình sẽ không thể gọi được câu lệnh cài trong tệp robots.txt. Vậy nên, các web developers phải nắm vững cú pháp của từng công cụ tích lũy dữ liệu trên website.

3. Bị tệp robots.txt ngăn nhưng Google vẫn có thể index

Cho dù trước đó chúng ta đã ngăn một URL bên trên website của bản thân mình nhưng URL đó vẫn còn xuất hiện thì hôm nay Google vẫn có thể Crawl với index đến URL đó của bạn.

Bạn yêu cầu xóa URL đó trên website nếu nội dung bên trong không quá đặc biệt để bảo mật cao nhất. Bởi vì nội dung vào URL này vẫn hoàn toàn có thể xuất hiện tại khi ai kia tìm kiếm bọn chúng trên Google.

Một số chú ý khi thực hiện tệp robots.txt

Việc chỉ định các lệnh cho từng User-agent là không phải thiết, cũng chính vì hầu hết những User-agent đều từ 1 công vậy tìm tìm và đông đảo tuân theo một phép tắc chung.Tuyệt đối không được dùng file robots.txt để chặn những dữ liệu riêng tư như thông tin người dùng vì Googlebot sẽ bỏ qua những lệnh vào tệp robots.txt nên khả năng bảo mật không cao.Để bảo mật thông tin dữ liệu cho website cách tốt nhất có thể là dùng mật khẩu riêng cho những tệp hoặc URL ko muốn truy cập trên website. Mặc dù nhiên, bạn tránh việc lạm dụng các lệnh robots.txt vì đôi khi tác dụng sẽ không tốt như ước ao muốn.

File robots.txt hoạt động như cụ nào?

Các quy định tìm kiếm có 2 trách nhiệm chính:

Crawl (cào/ phân tích) dữ liệu trên trang web để tìm hiểu nội dungIndex câu chữ đó để thỏa mãn nhu cầu yêu cầu cho những tìm tìm của bạn dùng
*
Công gắng tìm kiếm bao gồm 2 trách nhiệm chính: Crawl & Index

Để crawl được tài liệu của trang web thì các công cố gắng sẽ đi theo những liên kết tự trang này mang lại trang khác. Cuối cùng, nó thu thập được dữ liệu thông qua hàng tỷ website khác nhau. Quy trình crawl tài liệu này còn được nghe biết với tên không giống là “Spidering”.

Sau khi tới một trang web, trước lúc spidering thì những con bot của biện pháp Google vẫn tìm các file robots.txt Wordpress. Giả dụ nó search thấy được một tệp robots.txt thì nó đang đọc tệp đó trước tiên trước khi tiến hành công việc tiếp theo.

File robots.txt đã chứa các thông tin về kiểu cách các nguyên lý của Google nên tích lũy dữ liệu của website. Trên đây các con bot này sẽ tiến hành hướng dẫn thêm nhiều thông tin cụ thể cho quá trình này.

Nếu tệp robots.txt không chứa bất kể chỉ thị nào cho những User-agent hoặc nếu bạn không tạo ra file robots.txt đến website thì những con bots đang tiến hành tích lũy các tin tức khác bên trên web.

File robots.txt nằm nơi đâu trên một website?

Khi chúng ta tạo website WordPress, nó sẽ tự động tạo ra một file robots.txt đặt ngay dưới thư mục nơi bắt đầu của server.

Ví dụ, nếu như site của khách hàng đặt vào thư mục gốc của địa chỉ cửa hàng intlschool.edu.vn, các bạn sẽ có thể truy vấn file robots.txt ở đường truyền intlschool.edu.vn/robots.txt, kết quả ban sơ sẽ tương tự như như sau:

User-agent: *Disallow: /wp-admin/Disallow: /wp-includes/Như tôi đã nói ở trên, phần sau User-agent: vệt * có nghĩa là quy tắc được áp dụng cho mọi nhiều loại bots trên khắp chỗ trên website. Trong trường hợp này, file này đang nói cho bots biết là bọn chúng không được phép vào trong file thư mục wp-admin với wp-includes. Rất phù hợp phải không, vì chưng 2 folder này chứa không ít file thông tin nhạy cảm.

Hãy nhớ đấy là một tệp tin ảo, vì WordPress tự tùy chỉnh mặc định khi setup và không chỉnh sửa được (mặc mặc dù nó vẫn hoạt động). Hay thì, địa chỉ file robots.txt WordPress chuẩn chỉnh được để trong folder gốc, thường được call là public_html với www (hoặc thương hiệu website). Và để sản xuất file robots.txt mang đến riêng bạn thì bạn phải tạo một file mới để sửa chữa file cũ để trong thư mục cội đó.


*

Ở phần bên dưới, tôi vẫn hướng dẫn bạn nhiều phương pháp để tạo bắt đầu file robots.txt mang lại WordPress rất dễ dàng. Nhưng lại trước tiên, hãy nghiên cứu về những quy tắc các bạn nên áp dụng trong tệp tin này.

Làm vậy nào để kiểm soát website tất cả file robots.txt không?

Nếu bạn đang băn khoăn không biết website của bản thân có tệp robots.txt không. Hãy nhập Root domain của bạn, sau đó thêm /robots.txt vào cuối URL. Nếu bạn không tồn tại trang .txt xuất hiện, thì chắc chắn website chúng ta hiện không tạo thành robots.txt đến Wordpress rồi. Rất đối chọi giản! Tương tự, chúng ta có thể kiểm tra website của mình intlschool.edu.vn bao gồm tạo tệp tin robots.txt xuất xắc không bằng phương pháp như trên:

Nhập Root tên miền (intlschool.edu.vn) > chèn /robots.txt vào cuối (kết quả là intlschool.edu.vn/robots.txt) > thừa nhận Enter. Cùng đợi kết quả là biết tức thì thôi!


*
Cách chất vấn File robots.txt

Quy tắc nào đề xuất được bổ sung vào trong tệp tin robots.txt WordPress?

Cho mang đến nay, tất cả đều cách xử trí một luật lệ tại 1 thời điểm. Nhưng lại nếu bạn có nhu cầu áp dụng những quy tắc khác nhau cho các bot không giống nhau thì sao?

Bạn chỉ việc thêm từng bộ quy tắc vào phần khai báo User-agent cho từng bot.

Ví dụ: Nếu bạn có nhu cầu tạo một quy tắc áp dụng cho tất cả các bot với một quy tắc khác chỉ vận dụng cho Bingbot, bạn có thể thực hiện như sau:

User-agent: *Disallow: /wp-admin/User-agent: BingbotDisallow: /Ở đây, tất cả các bot sẽ ảnh hưởng chặn truy cập / wp-admin / nhưng lại Bingbot sẽ ảnh hưởng chặn truy tìm cập toàn thể trang web của bạn.


3 phương pháp tạo tệp tin robots.txt Wordpress solo giản

Nếu sau khi kiểm tra, bạn phân biệt website của chính mình không tất cả tệp robots.txt hay đơn giản dễ dàng là nhiều người đang muốn biến đổi tệp robots.txt của mình. Hãy xem thêm 3 cách tạo robots.txt mang lại Wordpress dưới đây:

1. Thực hiện Yoast SEO

Bạn hoàn toàn có thể chỉnh sửa hoặc tạo nên file robots.txt mang đến Wordpress trên bao gồm Wordpress Dashboard với vài ba bước 1-1 giản. Đăng nhập vào website của bạn, khi đăng nhập vào bạn sẽ thấy đồ họa của trang Dashboard.

Xem thêm: Khi Con Gái Đánh Trống Thánh Còn Phải Chống Mắt Xem, Cô Gái Sầm Nưa

Nhìn phía bên trái màn hình, click vào SEO > Tools > file editor.


Tính năng tệp tin editor đang không xuất hiện thêm nếu WordPress của doanh nghiệp vẫn chưa được kích hoạt trình quản lý chỉnh sửa file. Vì thế hãy kích hoạt chúng trải qua FTP (File Transfer Protocol – Giao thức truyền tập tin).

Lúc này các bạn sẽ thấy mục robots.txt cùng .htaccess tệp tin – đây là nơi giúp cho bạn tạo tệp tin robots.txt đấy.

*
Điều chỉnh và tạo thành file robots.txt trực tiếp bên trên Yoast SEO

2. Qua bộ Plugin All in One SEO

Hoặc chúng ta có thể sử dụng cỗ Plugin All in One SEO để chế tác file robots.txt WordPress cấp tốc chóng. Đây cũng là một trong plugin phầm mềm cho WordPress – Đơn giản, dễ sử dụng.

Để sản xuất file robots.txt WordPress, chúng ta phải cho giao diện chính của Plugin All in One SEO Pack. Lựa chọn All in One SEO > Features Manager > Nhấp Active cho mục robots.txt

Lúc này, trên giao diện sẽ mở ra nhiều anh tài thú vị:


Và khi đó, mục robots.txt sẽ xuất hiện như một tab bắt đầu trong thư mục bự All in One SEO. Chúng ta cũng có thể tạo lập cũng giống như điều chỉnh file robots.txt Wordpress tại đây.


Tuy nhiên, cỗ plugin này có một chút khác hoàn toàn so với Yoast SEO tôi vừa đề cập ở trên.

All in One SEO làm mờ đi thông tin của tệp tin robots.txt cầm vì các bạn được chỉnh sửa file như hiện tượng Yoast SEO. Điều này hoàn toàn có thể khiến chúng ta hơi bị động một ít khi sửa đổi file robots.txt Wordpress. Mặc dù nhiên, lành mạnh và tích cực mà nói, yếu tố này để giúp bạn giảm bớt thiệt hại cho website của mình. Đặc biệt một vài Malware bots sẽ gây ra hại cho website mà chúng ta không ngờ tới.

3. Chế tạo rồi upload tệp tin robots.txt qua FTP

Nếu bạn không thích sử dụng plugin để tạo file robots.txt Wordpress thì tôi có một cách này cho chính mình – Tự chế tác file robots.txt bằng tay thủ công cho Wordpress của mình.


Bạn chỉ mất vài ba phút để tạo nên file robots.txt Wordpress này bởi tay. Thực hiện Notepad hoặc Textedit để tạo ra mẫu tệp tin robots.txt Wordpress theo Rule tôi đã ra mắt ở đầu viết. Tiếp đến upload tệp tin này qua FTP ko cần sử dụng plugin, quy trình này rất đơn giản dễ dàng không tốn bạn vô số thời gian đâu.

Một số phép tắc khi sinh sản file robots.txt

Để được các con bot tìm kiếm thấy thì các file robots.txt Wordpress phải được đặt trong số thư mục cấp cao nhất của trang web.Txt riêng biệt chữ hoa và chữ thường. Vì thế tệp phải chọn cái tên là robots.txt. (không yêu cầu Robots.txt xuất xắc robots.TXT, …)Không nên được đặt /wp-content/themes/ tuyệt /wp-content/plugins/ vào mục Disallow. Điều đó sẽ cản trở các công núm nhìn nhận đúng chuẩn về giao diện blog xuất xắc website của bạn.Một số User-agent chọn cách bỏ qua các file robots.txt chuẩn chỉnh của bạn. Điều này khá thịnh hành với những User-agent bất thiết yếu như: Malware robots (bot của các đoạn mã độc hại)Các trình Scraping (quá trình tự thu thập thông tin) add Email những tệp robots.txt thường sẽ có sẵn với được công khai minh bạch trên web. Bạn chỉ việc thêm /robots.txt vào cuối bất kể Root Domain để xem các chỉ thị của website đó. Điều này có nghĩa là bất kì ai cũng thấy những trang bạn có nhu cầu hoặc không muốn crawl. Vì vậy chớ sử dụng các tệp này nhằm ẩn thông tin cá thể của bạn dùng.

Một số xem xét khi sử dụng file robots.txt

Hãy đảm bảo rằng các bạn không chặn bất kỳ nội dung hoặc phần làm sao trên website mà bạn có nhu cầu Google index.

Các links trên thiết bị chặn vị việcrobots.txt sẽ không còn được những bot theo dõi. Trừ khi những link này còn có liên kết với những trang không giống (các trang không trở nên chặn bởi robots.txt, Meta Robots,…). Trường hợp không, những tài nguyên được liên kết hoàn toàn có thể sẽ ko được thu thập và lập chỉ mục.

Link juice sẽ không được truyền từ các trang bị chặn đến những trang đích. Vì thế nếu muốn dòng sức mạnh link juice truyền qua các trang này thì bạn hãy thực hiện một cách thức khác thay do tạo robots.txt WordPress.

Không nên thực hiện file robots.txt nhằm ngăn tài liệu nhạy cảm (như thông tin người tiêu dùng riêng tư) xuất hiện thêm trong hiệu quả SERP. Cũng chính vì trang web cất thông tin cá nhân này rất có thể liên kết với nhiều trang web khác. Vày đó các con bot sẽ vứt quá những chỉ thị của tệp robots.txt trên Root tên miền hay trang chủ của bạn, nên website này vẫn hoàn toàn có thể đượclập chỉ mục.

Nếu bạn muốn chặn trang web này khỏi các tác dụng tìm kiếm, hãy áp dụng một cách thức khác thay vì chưng tạo file robots.txt mang đến WordPress như dùng mật khẩu bảo vệ xuất xắc Noindex Meta Directive. Một số trong những công thế tìm kiếm có nhiều User-agent. Chẳng hạn, Google thực hiện Googlebot cho những tìm tìm miễn mức giá và Googlebot-Image cho những tìm kiếm hình ảnh.

Hầu hết những User-agent từ cùng một phương tiện đều tuân thủ theo đúng một quy tắc. Cho nên bạn không yêu cầu chỉ định những lệnh mang lại từng User-agent. Tuy nhiên việc có tác dụng này vẫn rất có thể giúp bạn kiểm soát và điều chỉnh được phương pháp Index nội dung trang web.

Các khí cụ tìm tìm sẽ tàng trữ nội dung tệp tin robots.txt WordPress. Mặc dù nó vẫn thường update nội dung trong bộ nhớ lưu trữ cache tối thiểu một lần một ngày. Trường hợp bạn đổi khác tệp và muốn update tệp của bản thân mình nhanh hơn vậy thì hãy sử dụng ngay tác dụng Gửi của Trình đánh giá tệp robots.txt.

Câu hỏi thường gặp mặt về robots.txt

Dưới đây là một số câu hỏi thường gặp, hoàn toàn có thể là đầy đủ thắc mắc của công ty về robots.txt bây giờ:

Kích thước buổi tối đa của tệp tin robots.txt là bao nhiêu?

500 kilobyte (khoảng).

File robots.txt Wordpress nằm chỗ nào trên website?

Tại vị trí: domain.com/robots.txt.

Làm bí quyết nào để sửa đổi robots.txt WordPress?

Bạn hoàn toàn có thể thực hiện tại theo cách thủ công bằng tay hoặc áp dụng một trong vô số plugin WordPress SEO như Yoast có thể chấp nhận được bạn sửa đổi robots.txt tự WordPress backend.

Điều gì xẩy ra nếu Disallow vào câu chữ Noindex vào robots.txt?

Google đã không khi nào thấy lệnh Noindex bởi vì nó cần yếu Crawl tài liệu trang.

Tôi sử dụng cùng một tệp robots.txt cho các trang web. Tôi hoàn toàn có thể dùng một URL không thiếu thay cho một đường dẫn kha khá được không?

Không, những lệnh vào tệp robots.txt (ngoại trừ mã Sitemap:) chỉ áp dụng cho những đường dẫn tương đối.

Làm phương pháp nào để tôi có thể tạm xong toàn bộ chuyển động thu thập dữ liệu trang web của mình?

Bạn có thể tạm dứt toàn bộ hoạt động thu thập dữ liệu bằng cách trả về một mã kết quả HTTP 503 cho đa số URL, bao gồm cả tệp robots.txt. Chúng ta không nên biến đổi tệp robots.txt nhằm chặn vận động thu thập dữ liệu.

Làm ráng nào để chặn tất cả các website Crawler?

Tất cả bạn cần làm là truy vấn Settings > Reading và chọn ô kề bên tùy chọn search Engine Visibility.


*
Tick chọn “Discourage tìm kiếm engines from indexing this site” để chặn tất cả các website crawler index site của bạn

Khi đã được chọn, WordPress thêm chiếc này vào tiêu đề của trang web của bạn:

meta name="robots" content="noindex,follow"WordPress cũng chuyển đổi file robots.txt của trang web của chúng ta và thêm phần lớn dòng này:

User-agent: *Disallow: /Những cái yêu cầu những robot (các web crawler) ko index những trang của bạn. Tuy nhiên, nó trả toàn phụ thuộc vào vào việc những công ráng tìm kiếm chấp nhận yêu mong này hay bỏ lỡ nó.

Chặn trình thu thập, tra cứu kiếm thông tin của Google:

Để chặn trình thu thập, tra cứu kiếm tin tức của Google (User-agent: Googlebot) ko thu thập ngẫu nhiên trang nào tất cả chứa chuỗi URL www.example.com/example-subfolder/. Chúng ta hãy áp dụng cú pháp sau:

User-agent: GooglebotDisallow: /example-subfolderChặn trình tích lũy thông tin của Bing:

Bạn hãy áp dụng cú pháp sau:

User-agent: BingbotDisallow: /example-subfolder/blocked-page.html

Robots.txt, Meta robot và X-robot khác nhau như nắm nào?

Đầu tiên, robots.txt là 1 tệp văn phiên bản trong khi Meta robot và X-robot là những Meta Directives. Ngoại trừ ra, chức năng của 3 nhiều loại Robot này cũng trọn vẹn khác nhau.

Meta Robot là những đoạn mã cung ứng hướng dẫn cho trình tích lũy thông tin về cách thu thập dữ liệu hoặc lập chỉ mục nội dung trang web.


Nó được đặt vào phần của website và trông giống như:

X-robot là 1 phần của tiêu đề HTTP được giữ hộ từ sever web. Không y như thẻ meta robots, thẻ này sẽ không được để trong HTML của một trang (tức phần của trang web).


X-Robots được thực hiện để ngăn những công ráng tìm kiếm lập chỉ mục các loại tệp rõ ràng như hình ảnh hoặc PDF, ngay cả so với các tệp chưa phải HTML.

Bất kỳ lệnh nào dùng được vào thẻ meta robots cũng rất có thể được chỉ định là 1 trong những X-Robots.

Bằng cách có thể chấp nhận được bạn kiểm soát cách các loại tệp cụ thể được lập chỉ mục, X-Robots cung ứng sự linh hoạt hơn thẻ Meta robots và tệp robots.txt.

Việc tạo file robots.txt chỉ định cho việc Index cục bộ trang website hoặc thư mục. Trong khi đó thì Meta robot với X-robot rất có thể ra lệnh cho câu hỏi Index ở cấp độ trang riêng rẽ lẻ.

Kết luận

Bây giờ cho lượt chúng ta rồi đấy! chúng ta đã biết file robots.txt là gì chưa? Đã bình chọn xem website của chính mình đã tất cả file robots.txt tuyệt chưa. Tạo thành lập và sửa đổi file robots.txt Wordpress theo ý của công ty nhằm cung ứng các nhỏ bot của hiện tượng tìm kiếm tích lũy dữ liệu với index trang web của chúng ta nhanh chóng.

Nếu sau khi đọc xong bài viết chi ngày tiết này mà chúng ta vẫn cảm giác khó hiểu, bạn hoàn toàn có thể để ý đến đăng ký khóa huấn luyện hay chương trìnhđào tạo ra SEOtại GTV nhé!

Chúc các bạn thành công!

Đọc tiếp:

Bạn cảm thấy hoang mang lo lắng với lượng kiến thức và kỹ năng SEO liên tiếp trên mạng như hiện tại nay? Một khoá học tập SEO chuyên nghiệp hóa có trong suốt lộ trình rõ ràng, bài bản sẽ cùng chúng ta vượt qua cơn nhức đầu này!