U.S. flag

咔咔技术站所属网站

Dot gov

所属网站使用 KKJSZ.CN
KKJSZ.CN 属于咔咔技术站及其附属网站使用


HTTPS

KKJSZ.CN域名全面使用 HTTPS
小锁 ( ) 或 https:// 表示您已安全连接到KKJSZ.CN网站。

Typecho博客程序正确配置robots.txt

Typecho博客程序正确配置robots.txt

咔咔云
2022-05-28 / 0 评论 / 129 阅读 / 正在检测是否收录...

Robots

Robots协议

Robots协议(也称为爬虫协议、机器人协议等)全称是“网络爬虫排除标准”(Robots Exclusion Protocol),是国际互联网界通行的道德规范,Robots是站点与spider沟通的重要渠道,站点通过robots告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守

robots.txt实现原理

1.搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就按默认访问以及收录所有页面。
2.当搜索蜘蛛发现不存在robots.txt文件时,会产生一个404错误日志在服务器上,从而增加服务器的负担,因此为站点添加一个robots.txt文件还是很重要的。
3.百度也会严格遵守robots的相关协议,要注意区分你不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和你不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。

robots.txt基本语法


检测网站是否配置robots.txt

第一种方法:访问网址 http(s):你的域名/robots.txt即可
第二种方法:通过 [百度站长工具] 来检测

正确编写一个保护网站隐私的robots.txt注意事项

所以可以这样写,在网站根目录下新建一个robots.txt文件,内容如下:

User-agent: *
Allow: /*.html$
Allow: /usr
Allow: /*.png$
Allow: /*.jpg$
Allow: /*.jepg$
Allow: /*.gif$
Allow: /*.bmp$
Disallow: /admin/
Disallow: /install/
Disallow: /var/
Disallow: /config.inc.php
Disallow: /install.php
Sitemap:https://www.kkjsz.cn/sitemap.xml  

本文首发于:https://www.kkjsz.cn/archives/146.html

本文共 817 个字数,平均阅读时长 ≈ 3分钟
0

打赏

海报

正在生成.....

评论 (0)

取消