首页
时间轴
统计
壁纸
留言
友邻
关于
推荐
每日新闻
网易云音乐
抖音无水印
小米步数
Excel比对
网站seo优化
网站监测器
文章伪原创
前端配色表
多编码转换
JSON解析
IP属地查询
IP端口扫描
在线测速网
在线集五福
精美壁纸
采集图片
蜜语星球
CF图标点亮
查QQ群数量
QQ邮箱
取QQSkey
取百度key
取微博key
Search
1
教你如何把Waves效果器完整的卸载干净
2,513 阅读
2
123云盘直链带密码解析源码
1,063 阅读
3
2023新版QQ工具箱全开源
805 阅读
4
2023新版API接口管理系统v1.3全开源
774 阅读
5
个人新拟态主页UI5.0全开源
591 阅读
技术文章
程序代码
实用软件
声卡效果
登录
/
注册
Search
标签搜索
咔咔云
PHP
技术文章
PHP代码
API
QQ技术
网站程序
绿色软件
易语言源码
网络攻防
图床源码
授权程序
网站优化
声卡效果
SEO优化
计算机常识
Windows
GitHub
typecho
网站美化
咔咔云
技术交流群
累计撰写
53
篇文章
累计收到
1
条评论
首页
栏目
技术文章
程序代码
实用软件
声卡效果
页面
时间轴
统计
壁纸
留言
友邻
关于
推荐
每日新闻
网易云音乐
抖音无水印
小米步数
Excel比对
网站seo优化
网站监测器
文章伪原创
前端配色表
多编码转换
JSON解析
IP属地查询
IP端口扫描
在线测速网
在线集五福
精美壁纸
采集图片
蜜语星球
CF图标点亮
查QQ群数量
QQ邮箱
取QQSkey
取百度key
取微博key
用户登录
登录
注册
搜索到
1
篇与
的结果
2022-05-28
Typecho博客程序正确配置robots.txt
Robots协议Robots协议(也称为爬虫协议、机器人协议等)全称是“网络爬虫排除标准”(Robots Exclusion Protocol),是国际互联网界通行的道德规范,Robots是站点与spider沟通的重要渠道,站点通过robots告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守robots.txt实现原理1.搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就按默认访问以及收录所有页面。2.当搜索蜘蛛发现不存在robots.txt文件时,会产生一个404错误日志在服务器上,从而增加服务器的负担,因此为站点添加一个robots.txt文件还是很重要的。3.百度也会严格遵守robots的相关协议,要注意区分你不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和你不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。robots.txt基本语法{callout color="#f0ad4e"}注意:robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写{/callout}{card-describe title="基本语法"}User-agent:描述搜索引擎robot的名字即 : 你可以指定该规则只对baidu 或者google 或者其它指定搜索引擎有效 可用通配符 *表示全部Disallow: 描述不希望被访问的一组URL即:设定禁止访问的部分,可以用完整url,也可以用相对路径,可以是单个目文件,也可以是整个文件夹,也可以用通配符限定指定类型Allow: 描述希望被访问的一组URL即:设定允许访问的部分,不过因为默认是全部允许的,这个语法通常是配合disallow使用的,用它来完成 如“除了xxx.html该目录下全部不能访问”这样的设定。 要注意的是allow和disallow的顺序是有讲究的,搜索引擎会以它先看到的规则为判断标准。Sitemap:指示蜘蛛去爬取网站的sitemap文件通配符:"$" 匹配行结束符;"*" 匹配0或多个任意字符{/card-describe}检测网站是否配置robots.txt第一种方法:访问网址 http(s):你的域名/robots.txt即可第二种方法:通过 [百度站长工具] 来检测正确编写一个保护网站隐私的robots.txt注意事项{card-describe title="注意事项"}1.要求所有搜索引擎遵循我的这个协议2.禁止蜘蛛抓取我的后台地址和Typecho的安装路径3.指引蜘蛛去抓取我的Sitemap{/card-describe}所以可以这样写,在网站根目录下新建一个robots.txt文件,内容如下:User-agent: * Allow: /*.html$ Allow: /usr Allow: /*.png$ Allow: /*.jpg$ Allow: /*.jepg$ Allow: /*.gif$ Allow: /*.bmp$ Disallow: /admin/ Disallow: /install/ Disallow: /var/ Disallow: /config.inc.php Disallow: /install.php Sitemap:https://www.kkjsz.cn/sitemap.xml {callout color="#f0ad4e"}注意:typecho默认是没有robots.txt文件的(╯﹏╰),需要我们自行创建,且文件名要小写哦!Sitemap要替换为你的网站的Sitemap所在路径(默认一般在根目录下){/callout}{message type="success" content="这样既可以起到保护我们网站隐私的作用,也可以正确的指导搜索引擎去爬取我们网站的信息,快速提高网站收录的概率!"/}
2022年05月28日
187 阅读
0 评论
0 点赞
首页
复制
搜索
前进
后退
重载网页
SEO优化
关于站长