宝宝树 vs 美柚 SEO概况 2017-02-16

指标类型 宝宝树 美柚
中文网站排名 187 16161
母婴网站排名 3
日均IP 196万 30
日均PV 1000万 30
百度权重 8 4
360权重 6 2
响应时间 203毫秒 49毫秒
预计百度流量 44万5587 2704
百度移动流量 16148(-1073) 14211(+2320)
百度收录数 1亿3700万 1万1
反链数 4577 73

搜索引擎与SEO

SEO 思维导图(原图)下载地址

SEO 思维导图(xmid)下载地址

SEO 思维导图(原图)下载地址

什么是SEO

SEO: 搜索引擎优化(Search Engine Optimization);指为了提升网页在搜索引擎自然搜索结果中的收录数量及排序位置而做的优化行为。

对于网站和用户,搜索引擎优化是一种免费的引流渠道。对于搜索引擎,SEO是一种网站建设和优化需要遵循的规则。

SEO 是职业 还是 技能?

在不少公司中,都有专门的SEO部门–>搜索引擎中拉免费的流量、提高搜索流量转化率的相关用户体验、运营的一职多能的角色。

SEO 不是机械的发链接和堆关键词。

不同层次不同理解

  1. SEO是技术 关键字,描述,各种链接等 觉得SEO各方面都是通过技术实现的
  2. SEO是策略 制定一系列SEO相关的策略计划,指导技术,编辑,数据分析及外链专员等人员进行专项工作。
  3. SEO是艺术 挑逗搜索引擎或更深入研究搜索引擎

技术不能支撑起SEO的全部,但技术是SEO的重要组成部分。会技术的不一定是SEO大牛,但SEO大牛肯定技术也很牛。

ps:前端做SEO有天然的优势,有兴趣去研究,美柚如果能给这个机会的话,会是一个很不错的发展方向。

天下无难事,只要肯放弃

为什么要SEO

引流。 为了从搜索引擎中获得更多的免费流量,以及更好地展现网站形象。

SEO五个阶段

  • 收录
  • 排名
  • 流量
  • 转换
  • 重复上述

搜索引擎工作原理

搜索引擎主动抓取网页的步骤

  1. 派出Spider : 按照一定策略把网页抓回到搜索引擎服务器
  2. 内容处理 : 对抓取回来的网页进行链接抽离、内容处理,消除噪声、提取该页主题文本内容。
  3. 中文分词 : 对网页的内容进行中文分词、去除停止词。
  4. 索引 : 去重,对剩余网页进行倒序索引,等待用户的检索

搜索引擎工作流程

  1. 查询分析:查询关键词分词
  2. 缓存机制:查询缓存中是否有该关键词的查询结果
  3. 网页排序:没有缓存,索引库的网页进行调取排名
  4. 反作弊: (最重要 也是作弊最多的部分) 内容相关性,重要性(链接权重分析),用户体验高低(搜索结果页的使用体验)。

Spider 分类

按网络上所有spider 的作用及表现出来的特征进行分类:批量型、增量型、垂直型

批量型

针对性;有明确抓取范围和目标,设置抓取的时间,数据的限制、固定范围内页面的限制。

增量型

通用爬虫 。追求广而全的抓取,没有固定目标,范围和时间限制。尽可能全的抓取网页,还要针对已更新的网页进行相应的再次抓取和更新

垂直型

聚焦爬虫。具有特定主体,特定内容或特定行业的网页进行抓取。

Spider 抓取策略

spider 抓取的页面类型可分为:已抓取页面,待抓取页面,可抓取页面,暗网中的页面。

针对这些页面的爬虫抓取策略:深度优先策略、广度优先策略、重要页面优先策略、大站优先策略

深度优先策略

一条连接爬到底,再返回上一层

广度优先策略

一层页面爬完,再爬更深一层

1
其中:深度优先策略和广度优先策略是抓取全网的策略。但是爬虫的资源的有限性,决定了爬虫资源有限针对重要优先抓取。

重要页面优先策略

重要性的定义:受寄主站点本身质量和权重,导入连接的多少和导入连接的质量

大站优先策略

大站的定义:稳定的服务器、良好的网站结构、优秀的用户体验、及时的咨询内容、丰富的内容类型、权威的相关资料,庞大的网页数量,大量高质量的外链

分布式Spider

spider数量众多,涉及分布式计算,确保spider作业不重复

暗网抓取

暗网:是通过普通抓取策略 永远抓取不到的网页。 解决办法: 站长提交资源。 百度数据开放平台提交结构化数据。

降权蜘蛛

该网站被降权或者屏蔽,百度会把该站点的抓取任务分发给这个spider。如果有这个ip的spider 来访问你的网站,恭喜你,你的网站出问题了被降权或者屏蔽了。

spider和普通用户的区别

  1. spider 可以分辨隐藏内容,黑链等
  2. spider 没有Referer,普通用户有
  3. spider 不支持cookie
  4. spider 不会主动注册网站
  5. spider 对于动态参数网站,可能会死循环
  6. spider 不能分辨是原创

用户体验

普通网页的用户体验:

1
2
3
4
5
1. 感官体验:试听上的体验,舒适性
2. 交互体验:操作上的体验,易用、可用性
3. 情感体验:心理上的体验,友好性
4. 浏览体验:浏览上的体验,吸引性
5. 信任体验:信任体验,可靠性

SEO 判断体验

1
2
3
4
1、简介的页面,广告不会干扰内容页面,没有大量弹窗跳转(感官体验)
2、网站品牌、网站曝光度、网站备案(信任体验)
3、网页在搜索结果中的点击率,又反悔搜索引擎二次搜索的比略,内容原创性、时效性、丰富性及更新频率,网页标题和内容相关性(浏览体验)
4、网页功能性,评论数量,踩顶次数、页面分享次数、页面风向次数等用户投票数据(浏览体验)

关键词研究

关键词研究的意义:

  1. 精准的关键词 容易在搜索引擎中获得排名
  2. 从SEO的角度根据所挖掘的关键词 来为网站提供运营方向

关键词分类

按搜索目(这里所列的)

导航类

不记得网址 或者 懒得输入网址 使用的关键词

  • 精确型 QQ空间登入 等
1
2
钓鱼网站使用
没有具体的研究价值
  • 模糊型
1
不知道是找官网或者找官网相关新闻或者评价之类的信息

事务类

重点关键词,通过这些关键词来访的用户有比较高的转化率

具有明显动作目的而搜索的关键词: 比如购买意向,比如大姨妈计算,大姨妈来了相关贴士

信息类

寻找某种信息使用的关键词。数量占总搜索词的绝大多数,也是绝大部分网站抢占流量空间最大的一类关键词

典型的例子:京东把每个评论做成一个页面。标题设计:“商品名 ‘评论标题’ -京东品牌名”

百度搜: 美观大方 安装方便

按关键词长短

长尾关键词、短尾关键词

在考虑关键词长短的时候,要注意两个理论

2/8理论

80%的经历和资源来主攻20%的核心关键词的优化,这部分关键词如果能优化成功,将会带来很可观的流量。彰显网站在行业中的地位。

长尾理论

大部分的长尾关键词的搜索量虽然很小,但是核心关键词的数量有限,一定的长尾的累积搜索量肯定比核心多

按关键词热度

  1. 热门关键词;流量非常大,但词量少;”魔兽世界” “dota”
  2. 一般关键词; 一定搜索量,介于长尾和短尾之间。 “iphone 7 长度”
  3. 冷门关键词;偶尔有那么几次搜索量的关键词,搜索量极低。“碰到女生不会说话怎么办”

关键词挖掘

  • 同行竞争对手

  • 针对资源批量扩展

  • 按属性扩展

  • 搜索引起提供的数据

  • 小工具: 很多站长工具都提供 关键词挖掘工具

关键词处理

选择

挖掘出来的关键词进行筛选,布局到网站中

  1. 与内容相关
  2. 搜索量大 竞争小

分组

  1. 适合首页和核心目录
  2. 适合扩展子目录
  3. 适合专题页面
  4. 适合布局到内容中去
  5. 适合资源聚合页面

细分:搜索量 竞争强度 词性 商业价值及所属细分类等因素

关键词间建立相关关系

分布到网站中。架构比较大,内容比较多的网站是有必要的。

关键词部署

原则

  1. 每个页面只部署2~3个关键词
  2. 除内容页外的页面,页面之间的关键词不可重复,甚至不可太相近
  3. 对于太相近的关键词或同义词进行组合部署,尽可能分配到一个页面中,如果站内资源丰富,可以进行单独部署
  4. 除内容页外的页面,部署的关键词最好是规范的关键词,没有太多定于形容词

方法

参照关键词分组。出去网站首页和主要栏目页优化一些高搜量,高竞争强度,高行业地位的关键词之外,其他关键词根据关键词本身的搜索量、长短性质、规范层度就可以布局到内容页、专题页和聚合页中去了。

网站分析

网站数据分析

基础数据

这是长期工作的内容

数据可视化处理:数据转为图形

比如针对收录,要通过对短期数据的分析来进行中长期的演化,从而获得优化收录需要注意的问题。另外还包括了重点栏目的长期跟踪、外链数量的跟踪等等。

关键词分析

需要持续对网站 关键词数量 和 排名 以及转化率等数据进行持续跟踪,并且作好记录,并通过SPSS统计学软件进行统计分析,查看是否具有统计学意义,当然目前也有很多专业的网站能提供相应的软件工具来帮助进行统计学分析,从而掌握关键词数量和转化率等趋势和发展,从而有效提升数据分析能力,为网站的SEO优化提供参考。

流量分析

竞争对手分析

搞SEO优化,最终目的是超过竞争对手,成为行业领军。知己知彼才能百战百胜。

  1. 网站收录数据
  2. 外链来源
  3. 数量数据
  4. 关键词种类
  5. 相关关键词排名
  6. 网站结构和内链布局
  7. 分析页面和内容

站内优化

基础优化

  • 404页面:减少网站跳出率,提升用户体验。(tips:腾讯的404计划)
  • robot.txt (跟spider交互的唯一文件)
  • 完整整体结构优化 (树形结构,层结最好不超过三层,超过三层可能就爬不了了。不要采用主流搜索引擎难于识别的形式,内容尽可能用文字形式表现,如果非要使用到图片或者Flash也要加个标签,说明文字。虽然现在开始有针对图片的搜索引擎)
  • 锚文本布局:规划布局好站内的锚文本绝对是一件富有价值的工作,而站内的锚文本遵循的原则跟外部链接没有多大区别。
  • META标签优化:title、keyword、decription
  • 清理死链
  • 网站地图 :它就是一个页面,上面放置了网站上所有页面的链接。当用户在网站上找不到自己所需要的信息时,可能会将网站地图作为一种补救措施。另外,搜索引擎蜘蛛非常喜欢网站地图,有利于蜘蛛的爬行抓取。
  • 内部权重分配
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
一等页面 关键词搜索量很大,比如首页,栏目页,专题页等,一旦排名会获取很大流量,那最好整个网站每个页面都有指向一等页面的链接,并且站外也要做外链。
  二等页面 关键词搜索量一般,比如文章页等,但也能带来流量,那针对这些页面链接最好长期在一等页面中存在,另外,再发布文章的时候,多给这类页面做内部链接,如果有精力也可以对这类页面做点外链。
  三等页面 几乎没有搜索量,比如很多企业站的新闻等,但这类页面的存在可以提高整个网站的收录量以及给以上两种页面提供权重。
  营销页面 本身没有搜索量,页面流量来自上面三种页面,靠站内引流,这类页面只要是那些产品介绍页,引导消费页等。
  一个营销类网站最好做到上面几个页面的划分,同时我们也可以这么归类,见图
  转化层:就是上面说的营销页面,网站将大量流量引流到这里进行消化,让流量变成现金。
  营养层:就是上面说的三等页面,给别的页面提供权重,本身不需要排名。
  流量层:就是上面说的一等页面和二等页面,通过站内和站外的权重集中获取很好的排名,又将流量引流到转化层。![](http://upload.admin5.com/2014/0211/1392089748190.PNG)
摘自:http://www.admin5.com/article/20140211/536384.shtml
  • 硬件优化

代码优化

  • 恰当的使用标题标签
  • 避免重复页面:每个页面包括标题、描述和关键字等都应该不一样,需要注意的是很多设计师会做一个通用的模板,而用的时候又忘记修改。标题一定要是具有独特性的!
  • 网站导航优化:网站的导航全站通用,至关重要,尽量用文字导航,不要用图片和flash等,若一定要用图片请一定加上alt属性。Flash则尽量避免,Flash的效果是很好的,但加载很慢,搜索引擎也无法读取Flash文件。
  • 精简代码:符合web2.0标准,使用div+css设计网页,合理布局标签尽量减少div层,使用描述标签,精练描述你的网页网络销售培训,将网站重点内容与经常更新的内容代码尽量靠近的位置。页面不要超过125K
  • 图片与文字链接优化:给所有图片加上alt描述属性。
  • js、css脚本优化: 网站的JavaScript和CSS等文件一律外部调用,不要把代码写在网页中,并且尽量减少脚本文件个数,这样不仅仅有利于网页加载速度也有利于搜索引擎蜘蛛的抓取!
  • 网页布局优化: 面包屑型导航,树状扁平化结构。首页点击不出三次可以到达网站任何一个页面,任何页面都可以很快的回到想要的页面。文章内容部分先于其他部分显示,设置上一篇、下一篇文章,根据文章的关键词设置“相关文章”,如果文章内容多分几页显示,需要保持每页的网页标题、文章内容均不同,避免出现复制内容问题 。

网站优化

  • 不要和域名重复: 对于国内区别不大。因为他们一般对于URL的关注没有国外那么敏感,不过建议最好还是使用清晰独立的URL,尽量避免和域名重复。
  • URL最好静态化: 静态化有利于搜索引擎抓取,另外对于一些必要的转向尽量使用301处理,同时建立一个404导航页面以免出现打开错误时可以帮助导航。
  • 管理文件扩展
  • URL被惩罚: 如果你怀疑这个URL有被搜索引擎认为作弊的嫌疑,可以检查URL里:可疑的关键词、符号、二级域名深、域名深度、数字。
  • 管理好文件扩展: 不要用.exe之类搜索引擎无法识别的文件类型来结尾,这种会导致搜索引擎无法收录。
  • URL的长度: 在URL里最好不要超过3-5个关键词,Google Matt Cutts 说如果超过5个关键词,该url的权重就会被相应的降低。当然这个是相对的,并不是超过5个关键词的URL就不会取得好的排名,毕竟URL只是其中的一个部分而已,而对于一个优秀的SEO人员可能是寸步必争,不会轻易放弃每一个可能超越对手的地方。并且最近的研究显示,在排名较好的位置里面,较短的URL获得的点击率是长的2倍,所以为了你的排名和点击率,最好还是用较短的URL。
  • 做好网站首选域: 首选域能很好地把权重集结到某个域名上,试想,一个首页,有动静态,www,不带www的域名等四条路径,这对SEO的工作及搜索引擎的抓取压力是很大的,把首选域名做好,规划好首页路径,默认首选路径为www.365soudao.com/index.html。这样对以后的工作是非常有效的,特别是新的网站,一定要做首选域。

文件优化 Robots.txt

为什么设置Robots.txt

在进行SEO操作的时候,我们需要告诉搜索引擎哪些页面重要哪些页面不重要,重要的页面让蜘蛛进行抓取,不重要的页面进行屏蔽可以减少网站服务器的负担。

在robots.txt文件中设置网站地图

迷路时的指路牌

路径问题

  • 绝对路径/相对路径:在蜘蛛协议中,Allow和Disallow后面可以跟两种路径形式,即绝对链接、相对链接。绝对链接就是完整的URL形式,而相对链接只针对根目录。这是重点记住。
  • 斜杠问题:Disallow: /seojc表示禁止抓取seoic这个目录下的所有文件,如:seojc.1.html、seojc/rmjc.php都不允许抓取; Disallow: /seojc/ 表示禁止抓取seojc这个目录下的文件,即允许抓取seojc.1.html,但是不允许抓取seojc/rmjc.php。

内容优化

  • 坚持更新文章,丰富网站内容,抢占更多关键词
  • 建设企业新闻栏目,导入首页权重:不能独立建设资讯栏目的企业站,建议可将更新的重点放在企业新闻这一块。相比上策,中策的更新量要少得多,站点收录量少的多,关键词排名的效果相应也要差上一大截。
  • 有SEO意识的内容团队:能够围绕关键词,长期稳定的为网站推广企业站提供高质量、原创的内容; 强有力的技术支持:能够按照优化团队的要求,适时的为企业站建设新的内容平台。 新闻内容有意识的围绕关键词来组织:这需要撰写新闻内容的网络营销企业人员先接受SEO内容建设的培训,在写作时有意识的考虑到关键词布局。

站外优化

业内有句话:内容为王,外链为皇。直接反应了外链建设在SEO中的重要性。

外链的作用

  • 得到链接最多 质量最好的网页
  • 高质量 高权重的网站指向的网页
  • 锚文本也是被链接网页的主要内容

获取外链的方法及注意事项

友联交换和注意事项

寻找交换对象的方法
  • QQ群
  • 站长和SEO论坛
  • 链接交换平台
  • 自己网站上挂起交换链接联系方式
  • 自己找

判断是否适合交换

  • PR值
  • 内容
  • 收入量
  • 备案
  • site对方域名查排行
  • 百度权重
  • 导出链接多少
  • PR输出值

警惕的小把戏

  • 加上链接后而已删除
  • 源码中看不到友情链接
  • 禁止友情链接导出权重
  • 垃圾站或链接农场做交换链接
  • 不推荐接受友情链接专业
  • 正文中交换链接
  • 严格控制数量和相关性
  • 锚文本多样化

普通群发有害无益

链接买卖

链接诱饵(最后的方法)

1
2
3
4
发布原创文章: 等到自己网站收录以后,再转载:等到自己网站收录以后,再转载
提供优质资源(视频)
在站内制造话题
分享插件使用

付费新闻源软文

工具

Chinaz 站长之家

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
域名/IP
域名到期查询
过期域名查询
WHOIS 查询
IP 查询
同IP 网站查询
DNS 查询
网站信息查询
Alexa 排名
网页备案查询
网页检测
HTTP状态查询
查看网页源代码
机器人模拟抓取
robots.txt 生成
移动适配生成
网站速度测试
ping 测试
Wap 适配
网站 GZIP 压缩
SEO 查询
SEO 综合查询
移动SEO 查询
友链检测
反链查询
收录查询
META 信息挖掘
PR 查询
关键词排名查询
关键词挖掘
关键词优化分析
竞争网站分析
SEO 优化建议
百度权重查询
百度权重
百度移动权重
360权重
360移动权重
神马权重
指数批量查询
关键词指数排行

团队协作

没有恒定的排名规则,造就了工作效果的不确定性,带来目标设定和绩效考核的一定难度

团队组成

  • leader
  • 数据分析专员
  • 页面优化人员
  • 安全技术人员:保证服务器和网站安全 根据SEO需求配置好服务器 根据SEO方案对网站程序改动
  • 内容编辑
  • 外链专员:培养团队外链资源,发掘有效的外链平台和方法,平衡外链中使用的锚文本。

KPI & KCI

KPI: 关键绩效指标

KCI:关键胜任能力指标,把员工中的能力,个性,冬季,态度等进行量化和定性。

如果只使用kpi,为达目的不折手段,使用群发软件或者垃圾链接生成软件来完成外链数量

工具

针对于团队的自动化管理。把工作、数据和人员进行一一对应,统一调配、监控和管理的工具

  • 博求SEO团队管理系统
  • 蓝狐SEO团队管理系统

外包

适当外包

其他

名词解释

  • SEM:搜索引擎营销的基本思想是让用户发现信息,并通过(搜索引擎)搜索点击进入网站/网页进一步了解他所需要的信息。 SEM的方法包括搜索引擎优化(SEO)、付费排名、精准广告以及付费收录

  • PR:PageRank 是迷恋 Google 的人们用来测试其站点在 Google 中的排名的一种度量标准。SEO 和搜索引擎营销(SEM)专家也使用这个术语描述网页在 SERP 中的排名以及 Google 根据排名算法给予站点的分数。无论如何定义,PageRank 都是 SEO 的重要部分。

  • 黑帽:作弊。索引擎禁止的方式优化网站。 比如,群发留言增加外连,这是一个典型的黑帽行为。因为通过这个方式增加外部链接影响了其他站点的利益,同时影响搜索引擎对网站排名的合理和公正性。搜索引擎要制止这个做法,所以这个做法就被称为黑帽

  • 白帽:采用SEO 的思维,合理优化网站,提高用户体验,合理与其他网站互联。从而使站点在搜索引擎排名提升。

  • 关键词堆积:是一种作弊技术,通过它关键词被过度使用,仅仅为了吸引搜索引擎。

  • 内容农场:为搜索引擎制作大量低质量内容的网站

  • 链接农场:在 SEO 术语中,链接场是指一个充满链接的页面,这些链接其实没有实际作用,它们只作为链接存在,而没有任何实际的上下文。那些采用运用黑帽SEO 方法的人利用链接场,在一个页面中增加大量链接,希望能通过这种方式使 Google 误认为这个页面很有链接的价值。

  • 链接工厂:是一种作弊技术,通过它搜索营销人员建立几十个或者上百个能被搜索引擎爬

  • 谷歌跳舞:谷歌跳舞这个名词通常用于描述谷歌搜索引擎对搜索结果进行更新、重组的过程。谷歌一般每个月对其搜索数据库进行一次更新。新的网页被加入,无效网页被删除,对收录网站进行全面深度检索,也可能在这期间调整算法。在“跳舞时期”(三到五天内),谷歌的搜索结果会有大幅度的波动,几乎每一分钟都会有变化。这一更新过程可以很容易地通过搜索结果的显著变化来识别。“跳舞”一般持续几天时间,跳舞结束后,Google搜索结果和网站外部链接数量趋于稳定,直至下一个周期的到来。

  • 家族内链接:在两个有相似IP地址、或者相似数据库信息,或者定向锚文本间网站的链接可能被搜索引擎认为有偏向是在彼此中立方之间的。 - 内链:也叫站内链接,网站内部页面与页面之间的调整的链接交内链。一个页面要被收录,首先搜索引擎蜘蛛要能爬到你的链接,在爬行的过程中蜘蛛会顺着一条链接,爬到另一条链接,所以内页就需要良好的部署,不定期检查站内是否存在死链或断链。如果想要有一个好的排名就需要适当添加反链来引导搜索引起。像导航,Tags等等都属于内部链接。

  • 外链:SEO外链就是所有指向自己网站的链接,它存在的目的是告诉搜索引擎这是条路,这条路可以走到我的网站,指导并且吸引蜘蛛的爬行抓取路径,也就是大家所熟知的路标和引导的作用,仅此而已,记住只有一个指引的作用。

  • 反链:准确的来讲应该叫做反向链接。反向链接指的是两个网页之间直接的关系。比如:有两个站,A和B,A站好比是自己的网站,B站是可以添加链接的网站,这样你把A的域名填写到 B的站内 这样对于你来说就曾加了一个反向链接。 反链也属于外链的一种。

  • 百度快照:每个被收录的网页,在百度上都存有一个纯文本的备份,称为“百度快照”。百度快照功能在百度的服务器上保存了几乎所有网站的大部分页面,使您在不能链接所需网站时,通过百度快照也能正常浏览网页。

  • 短尾关键词:字数比较少的关键词,比如育儿、美容、经期。一般竞争度会很大

  • 长尾关键词:字数比较多、比较具体、搜索量比较低的关键词。例如:宝宝辅食制作100款,厦门理工招生简介

  • 日均IP:指独立IP数。00:00-24:00内相同IP地址之被计算一次

  • 日均PV:Page View, 即页面浏览量或点击量,用户每次刷新即被计算一次

  • 日均UV:即Unique Visitor,访问您网站的一台电脑客户端为一个访客。00:00-24:00内相同的客户端只被计算一次。

  • 百度权重:各个网站根据目标网站的各项数据和自己设置的公司计算出来的

  • 提高权重的思路:1、外链:建设高质量 高数量的链接(很大层面) 2、网站内容建设 3、增加网站收录量 4、增加网站品牌知名度 5、提高网站在社交网站的中的传播度

  • 百度快照:自动生成的临时缓存页面。临时缓存网页的文本内容。

  • 沙盒:搜索引擎对新站的考核期。慢慢淡化

常用命令

  • SITE:收录量 例如site:www.meiyou.com

  • domain: domain只能查到Title、description 页面内容和URL中包含所查询字符串的网页。

  • inurl/alinurl:和site指令一样,但比site不靠谱。

  • title/intitle/allintile:限定在网页标题

  • filetype:文件类型;filetype:pdf 菊花台

  • inanchor:搜索锚文本

ETag

在我们的sitemap配置了ETag之后,对日志一段时间的监测发现,其sitemap响应时间以及耗时的平均时间均大幅度下降,爬虫访问sitemap文件的次数有所增加,对于收录而言,通过图表也能看出相对的增长曲线,我们的整体收录率大致提升范围在2% – 5%左右。所以在此,强烈建议大家设置sitemap的ETag,简简单单的一个小动作就能看到相对明显的效果还是很不错的。

SPA的SEO

spa做seo其实是分情况的,比如微博根本就不考虑seo,比如用有,tb,天猫也不考虑,因为他们都是封闭的,自主体系的不考虑长尾的应用。那么比如像博客产品,简书啊,这一类的spa应用肯定就要考虑seo给自己引流了。一般分几种情况来解决。

  1. 针对浏览器搜索引擎蜘蛛,对应生成一套专门给蜘蛛看的页面,nginx ua检测即可,转发到对应的蜘蛛引擎程序上。
  2. 使用前后端同构的方法进行页面渲染,比如react是支持php渲染的,完全可以做到蜘蛛来了就服务端输出,正常用户来了,则采用混合输出,比如首屏使用后端同构,后续功能使用前端渲染。
  3. 使用phantomjs对spa页面做抓取,再转发蜘蛛的ua请求提交回给蜘蛛。
  4. 后端对每个前端的controller同步做一个后端的实现,前端的controller使用history replaceState 弃用!#这种路由。当然之前这种方法用的少,主要是因为replaceState方法的兼容性问题,目前看来这种问题可以忽略了。因为很多网站不支持ie8了!