搜索引擎优化之收录篇
索引擎网站的爬行、抓取、过滤、网页的价值判断、排序页面、展现结果都是从用户的角度出发的,并且对用户的体验行为也会进行收集反馈,特别是互联网网站WEB2.0时代,用户主导着搜索引擎的方向,不要将百度看成是网站优化的障碍,把自己、把搜索引擎都当成是网站的普通访客,为更好的用户体验的改进,就是对搜索引擎改进,同时网站对搜索引擎的优化,也应该建立在益于用户的基础上。
面向搜索引擎和用户的网站优化,主要分为三个部分:如何更好的让搜索引擎收录网站中的内容、如何在搜索引擎中获得良好的排名、如何让用户从众多的搜索结果中点击你的网站。简单来说,就是收录、排序、展现。一个网站如果有良好的收录、良好的排序加良好的展现就能有良好的流量,下面木木seo借花献佛,根据百度搜索引擎优化指南的建议来看看这三个方面。
良好收录
搜索引擎优化之收录篇
机器可读
百度通蜘蛛抓取互联网上的网页,经过处理后建入索引中。目前蜘蛛只能读懂文本代码内容,flash、图片等非文本内容暂时不能处理或者说不能很好的处理,放置在flash、图片中的文字,百度无法识别。建议重要内容用文字而不是flash、图片、Javascript等来显示,特别首页仅在flash、Javascript中包含链接指向内部网页的网站,百度无法通过首页收录内页,所以首页如果用flash、javascript来做全屏特效,需要附带通往内页的文字。
百度建议
1、使用文字而不是flash、图片、Javascript等来显示重要的内容或链接;
2、如果必须使用Flash制作网页,在首页使用文本链接指向文字版;
3、可以把不希望搜索引擎抓取的导航或文本放在JS中;
4、不使用frame和iframe框架结构,通过iframe显示的内容可能会被百度丢弃。
网站结构
网站应该有清晰的结构和明晰的导航,这能帮助用户快速从你的网站中找到自己需要的内容,也可以帮助搜索引擎快速理解网站中每一个网页所处的结构层次。
网站结构建议采用扁平树状结构,常分为以下三个层次:首页——频道——文章页。象一棵大树一样,首先有一个树干(首页),然后再是树枝(频道),最后是树叶(普通内容页)。树型结构的扩展性更强,网站内容变多时,可以通过细分频道页来轻松应对。
理想的网站结构应该是更扁平一些,从首页到内容页的层次尽量少,这样搜索引擎处理起来,会更简单。
同时,网站也应该是一个网状结构,网站上每个网页都应该有指向上、下级网页以及相关内容的链接:首页有到频道页的链接,频道页有到首页和普通内容页的链接、普通内容页有到上级频道以及首页的链接、内容相关的网页间互相有链接。
网站中每一个网页,都应该是网站结构的一部分,都应该能通过其他网页链接到。不要在互联网中形成一个孤岛。
百度建议
确保每个页面都可以通过至少一个内部文本链接到达;
重要的内容,应该能从首页或者网站结构中比较浅的层次访问到;
合理分类网站上的内容,不要过度细分。
网站应该有简明、清晰的导航,可以让用户快速找到自己需要的内容,同时也可以帮助搜索引擎更好的了解网站的结构。
百度建议
为每个页面都加上导航栏,让用户可以方便的返回频道、网站首页,也可以让搜索引擎方便的定位网页在网结构中的层次;
内容较多的网站,建议使用面包屑式的导航,这更容易让用户理解当前所处的位置:网站首页 > 频道 > 当前浏览页面 ;
导航中使用文字链接,不使用复杂的js或者flash;
如果使用图片做导航时,可以使用Alt注释,用Alt告诉搜索引擎所指向的网页内容是什么。
状态返回码
百度爬虫在进行抓取和处理时,是根据http协议规范来设置相应的逻辑的,不同的返回码对应着不同的含义,比较常见的有:
404 返回码的含义是 “Not Found”,百度会认为网页已经失效,那么通常会从搜索结果中删除,并且短期内蜘蛛再次发现这条 URL 也不会抓取。
301 返回码的含义是 “Moved Permanently”,百度会认为网页当前跳转至新URL。当遇到站点迁移、域名更换和站点改版的情况时,推荐使用301返回码,尽量减少改版带来的流量损失。虽然百度spider 现在对301跳转的响应周期较长,但是我们还是推荐大家这么做。
百度建议
如果站点临时关闭,当网页不能打开时,不要立即返回404,建议使用503状态。503可以告知百度spider该页面临时不可访问,请过段时间再重试。
如果百度蜘蛛对您的站点抓取压力过大,请尽量不要使用404,同样建议返回503。这样百度蜘蛛会过段时间再来尝试抓取这个链接,如果那个时间站点空闲,那它就会被成功抓取了。
有一些网站希望百度只收录部分内容,例如审核后的内容,累积一段时间的新用户页等等。在这种情况,建议新发内容暂时返回403,等审核或做好处理之后,再返回正常状态的返回码。
站点迁移,或域名更换,网址规范化时,请使用301返回码。
子域名与目录的选择
选择使用子域名还是目录来合理的分配网站内容,对网站在搜索引擎中的表现会有较大的影响。
百度建议
在某个频道的内容没有丰富到可以当做一个独立站点存在之前,使用目录形式;等频道下积累了足够的内容,再转换成子域名的形式。
一个网页能否排到搜索结果的前面,"出身"很重要,如果出自一个站点权重较高的网站,那排到前面的可能性就越大,反之则越小。通常情况下主站点的权重是最高的,子站点会从主站点继承一部分权重,继承的多少,视子站点质量而定。
在内容没有丰富到可以做为一个独立站点之前,内容放到主站点下一个目录中能在搜索引擎中获得更好的表现。
内容差异度较大、关联度不高的内容,使用子站点形式。
搜索引擎会识别站点的主题,如果站点中内容关联度不高,可能导致搜索引擎错误的识别。关联度不高的内容,放在不同的子域名下,可以帮助搜索引擎更好的理解站点的主题。
域名间内容做好权限,互相分开,a.example.com下的内容,不能通过b.example.com访问
子域名间的内容可以互相访问,可能会被搜索引擎当做重复内容而进行除重处理,保留的url不一定是正常域名下的。
不要滥用子域名
无丰富内容而滥用大量子域名,会被搜索引擎当做作弊行为而受到惩罚。
规范、简单的url
创建具有良好描述性、规范、简单的url,有利于用户更方便的记忆和判断网页的内容,也有利于搜索引擎更有效的抓取您的网站。网站设计之初,就应该有合理的url规划。
百度建议
网站中同一网页,只对应一个url
如果网站上多种url都能访问同样的内容,会有如下危险:
a. 搜索引擎会选一种url为标准,可能会和正版不同
b. 用户可能为同一网页的不同url做推荐,多种url形式分散了该网页的权重
如果你的网站上已经存在多种url形式,建议按以下方式处理:
a. 在系统中只使用正常形式url,不让用户接触到非正常形式的url
b. 不把Session id、统计代码等不必要的内容放在url中
c. 不同形式的url,301永久跳转到正常形式
d. 防止用户输错而启用的备用域名,301永久跳转到主域名
e. 使用robots.txt禁止蜘蛛抓取您不想向用户展现的形式
让用户能从url判断出网页内容以及网站结构信息,并可以预测将要看到的内容
URL尽量短
长URL不仅不美观,用户还很难从中获取额外有用的信息。
正常的动态url对搜索引擎没有影响
url是动态还是静态对搜索引擎没有影响,但建议尽量减少动态url中包含的变量参数,这样即有助于减少url长度,也可以减少让搜索引擎掉入黑洞的风险。
不添加不能被系统自动识别为url组成部分的字符
url中加入了";"、","等字符,用户在通过论坛、即时通讯工具等渠道推荐这些url时,不能被自动识别为链接,增加了用户访问这些网页的困难度。
百度站长平台提供了URL优化工具,可以帮助检查URL对搜索引擎的友好程度并提出修改建议。
关于URL设置可参考什么样的页面URL最有利于优化? 搜索引擎优化之收录篇
改版/换域名
网站改版、换域名在互联网飞速发展的情况下是不可避免的,但处理不当,会造成重大的流量损失。
改版、换域名需要考虑的第一要点就是如何保证老用户不流失,当用户访问旧内容时,能引导用户到新网站上对应的内容,避免出现用户访问不到以前收藏的网页的情况。
我们建议在改版或者换域名时,将旧网页301永久重定向到内容对应的新网页,这样百度更容易发现这个转变,并迅速的将旧网页积累的权值传递给对应的新网页。
百度建议
如非必要,不要做整站内容的完全更换
网站改版或者网站内重要页面链接发生变动时,应该将改版前的页面301永久重定向到改版后的对应的页面。
网站URL结构尽量不要改
网站更换域名,应该将旧域名的所有页面301永久重定向到新域名上对应的页面
网站更换域名后,维持旧域名能稳定访问尽可能长的时间,给用户多一些时间记忆新域名。
如需要对很多部分进行改版时要一个一个慢慢来
改版之前的版本要做好备份,如若改版好出现问题,及时恢复到之前的版本。
利用站长工具
百度为了更好的处理互联网上的信息,提供了一些的面向站长的工具,合理的利用这些站长工具,可以起到事半功倍的效果。
死链删除,百度站长平台支持通过sitemap向百度提交网站的死链列表。网站死链过多,不仅影响用户的访问体验,也会影响百度对网站质量的判断。通过死链删除的接口可以让百度更快更全面的发现网站死链,从而进行有效删除。更多工具可以访问百度站长平台。