Google优化

对于Google在去年11月15号所做的更新,有很多实施了有效关键词策略的网站管理员压根就没有注意到。原因很简单:他们锁定的是所有可能相关的关键词,覆盖面极广,所以虽然个别一般性的关键词的排名下降了,但网站的整体访问量并未受到什么影响。

    若只针对少数关键词,而且这些关键词都有很好的排名,这种策略看起来似乎也蛮不错。可是一旦搜索引擎改变了排名算法,就象Google这次一样,这种缺乏灵活性的策略可就撞上南墙了--正确的做法是锁定所有可能相关的关键词,扩大对搜索结果的涵盖面,给自己的搜索引擎策略打下一个坚实的基础。

    3-2. 网站结构的有效性

    为保证“广泛的关键词”策略的有效性,网站需要进行组织,让搜索引擎可以顺利地遍历或检索网站内的所有网页。为了更好的理解这一点,让我们先来看看搜索引擎的Spiders是如何遍历网站的。

    在对网站的第一次造访中,Spider首先会取得一个叫做Robots.txt的文件来决定是否允许它检索。

    当Spiders从另外一个站点发现你网站的链接时,若Robots.txt文件里并未声明不允许它访问该页面,则Spiders会把这个页面保存下来。它不一定就是主页,也可能是你网站的其它页面。

    Spider在对这一页进行检索时,它会从中摘录一些关于内容方面的信息和页面上的所有链接,并将其放入搜索引擎的里面。如果它所认为你的网站十分重要,它稍后会检索这些链接页面。

    如果你在网站的每个页面上都放了一组指向网站主要部分的链接(网站全局导航链接),那么接下来这些链接页极有可能得到Spider的检索。假设网站上的每个页面上都依次放有指向网站主要内容的链接,那么搜索引擎要想遍历整个网站真是易如反掌。

    因而,最有效的网站结构当属自顶而下(Top-Down)或金字塔型设计结构。规模较大的网站(至少十几页)应设立一个网站地图页,用以列出网站的所有内部链接页。SUN微电子公司的网上大师级人物杰可布.尼尔森(Jakob Nielsen)认为:一个网站设计的精良与否的一个重要标志就是是否有网站地图。

    许多人对文本链接方式的网站导航持排斥态度(可能因为它不那么漂亮吧),而是热衷于Flash或动态网页(DHTML)形式的菜单。使用这种导航方式的人要当心了,因为搜索引擎目前尚无法很好地支持这种导航系统。不过别担心,只需将文本导航链接放到网页的最下方,这样既保持了你喜欢的网站风格,又向搜索引擎提供了更对它们口味的东西,可谓皆大欢喜。

    内容清楚的文字性链接不但可使你的网站很容易得到Spiders的检索,而且对我们这些真实的访问者来说亦一目了然。做文字链接时需注意一个问题:尽量让网站的内容只需最多两三次点击就可以打开,可创建一个网站地图把这些链接放到一起。

    3-3. 创建大量优化网站内容

    网站的结构就象一个框架。我们已经知道了如何构建一个友好的网站结构,接下来该向结构中填加内容了。

    先记住完成步骤一(3-1)后找到的所有相关关键词以及相应的修饰语,现在我们可以在每一页的内容上,在下面几个地方放上相关的主要关键词,并予以恰当的修饰:

    1. 网页的<TITLE>中

    2. HTML中包含的主题进行匹配,查询与主题的关系越密切,则主题性页面级别得分效果越佳。此外,由于一个给定的查询条件可能会与中多个主题匹配,所以页面级别计算中出现的任何小错误都将由关联的一定数量的主题性页面级别得分平摊,因而近似的主题性页面级别得分即可提供高质量的搜索结果。详细论述可参看"TSPR理论-如何应对Google PageRank排名新算法"。我们相信,无论Google采用什么新算法,其目的均旨在向用户提供更为精准的搜索结果。

    HillTop (LocalScore) 算法
    作者:Atul Gupta

    Google新算法的庐山真面目到底是什么?这仍然是个迷。而在Google网站上,从其"对高质量内容网站进行奖励及对采用恶意技术的网站进行惩戒"内容中,亦无什么新内容可寻端倪。自然,作为搜索引擎,这种做法是完全可以理解的。搜索引擎的算法应该是保密的,因为它们对新算法的任何评论,同意或否定的言行都会泄露其新算法,而任何对排名系统的一丁点泄漏都有可能被一些人钻了空子,并用来恶意操纵搜索结果,从而破坏搜索结果的客观公正性。

    我们根据一些比较具有可行性的推测,并结合实际研究、试验,以及对搜索引擎行为的发展趋势和历史的知识基础,得出了一些发现。首先,我们来看看对于Google新算法的一些比较值得注目的发现:
    1.Google新算法种种之种种传言 & 猜测

    对于Google新算法主要有下面这样一些传言和猜测:

    开始使用词典对号入座;

    意图施压使商业站点使用Adwords广告服务;

    开始使用"基于贝叶斯定理的SPAM过滤系统" ;

    开始处罚互惠链接,"优化"网页,或"链接文本" ;

    众多猜测中,"Google意图施压使商业站点使用Adwords广告服务"显然占了上风。许多搜索引擎优化分析家都认为:Google通过一个保密的过滤系统"黑名单"来对商业网站进行筛选,从而达到上述目的。对此观点我实在不敢苟同。解释如下…

    1.1 是否若查询条件中包含"商业性关键词"时,Google会对搜索结果进行筛选?

    因为这次更新中损失最惨重的是一些商业网站,所以有很多搜索引擎优化专家都认为Google开始对那些含有所谓"商业性关键词"的查询条件所产生的查询结果进行筛选。而从优化专家针对此所做的一些最初的测试结果来看,确实也表明了一些看起来似乎能够证实这种推测的征兆。

    1.2 Google此举动机何在?

    如果这是真的,那么Google为什么要这样做?这种推测的后盾在于Google算法更新的时间正好在圣诞购物季节之前,并适逢其IPO上市之际。分析家认为:Google这样做是为了向商业性站点施加压力,如果这些商业网站期盼在一年一度的美国传统的圣诞购物季节得到丰厚赢利的话,就得花钱做AdWords自助广告。免费午餐看来是没有了。还有一些人则认为Google此举旨在为其最终业绩(即基线)涂抹上一点光明的色彩来打动其未来投资者。

    1.3 那么又是谁取代了商业站点原来的交椅?

    从结果页上看,前20个结果好象都是一些官方站点(.gov),教育类站点(.edu),公益组织性站点(.org),目录及非美国本土的站点。由于这些站点一般并不太需要做广告,所以分析家们据此相信:提升这些类型的网站不会影响到Google的广告收入,同时还可以对商业性站点施压并迫使其加入Google的AdWords自助广告阵营中来。

    1.4 Google从何获得"商业性关键词"名单?

    从Google的AdWords广告系统,Google已然拥有一个大型的"商业性关键词"的。有趣的是,等于是那些广告客户和商业性站点的所有者自己把哪些是"好的商业词语"告诉给Google了-Google通过广告者对关键词语的竞标价格的变化完全可以看出每个关键词语的"价值"来。

    1.5 事实究竟如何?Google是否确是在用"商业关键词"名单来过滤掉商业站点?

    我个人认为:这种想法实在与事实太过相悖,而且我坚信:Google并不象分析家们所认为的在"过滤"站点。而且我相信,Google压根就没有什么"商业关键词"名单。一度流行的这种"过滤名单"理论是分析家们从自己所看到的迹象上得出的,而事实上这些所谓的迹象是由于其它原因所引发的,而并不是什么"过滤"所导致的。后面我会就此问题向大家详细解释和阐述。
  
    不可否认,从实践中我们确实可以看到一些象"过滤"的结果,但我们有理由相信这样的结果实际上是Google新算法的一种"副产品",而非Google本意。新算法意图对商业性网站而不是公益性网站施加影响。稍后我会向大家详细解释…

    Scroogle.org,这个由不喜欢Google的群体所建立的网站,原来可以通过一种巧妙的方式从Google上提取数据,并向用户提供一种可检查网站在Google上的"未过滤"的往日排名结果的工具。不过由于Google现已更新了算法以禁止此类查询,故Scroogle.org现已无法提供这样的工具。不过,该网站仍显示有一个从其网站上多方搜索而收集到的所谓"Filter Hit"名单。我研究过这个名单。 我觉得,它充其量也只能证明了Google并未使用任何如上所说之名单。不然的确话,如何解释"California Divorce Attorney"位于名单之首而"Books"或"Adult"却屈居最下席?难道在Google眼里,"California Divorce Attorney"比"Books"或"Adult"更有商业价值?

    Google任何从正常的排名机制中过滤掉把商业性站点的企图都是对Google品牌,乃至对其公正的搜索结果信誉的严重损害。若真有这样的企图,那Google真是太短视了,根本配不上它的品牌和它的服务。Google的股票上市(IPO)和最终业绩都将因此而毁于一旦。此外,Google也说过,其"搜索服务"和"AdWords自助广告"服务分属两个不同的工作部门,且互不搭界、互不影响。对此我还是相信的。

    2.Google搜索技术的几个明显变化

    2.1 Google开始采用词干技术(stemming)

    Google确已在搜索结果中采用了词干技术。在早先,如果搜索一个单数查询条件如"home garden",则搜索结果中不会出现如"home gardens","home gardening"这样的关键词变化形式,反之亦然。对于Google的用户来说,这种特性可能是一件好事情,因为搜索提供的结果更多了,但站在搜索引擎优化的立场来看,由于搜索结果的骤然增加,对关键词的竞争亦骤然加剧。

    2.2 Google于搜索结果中使用了拼写纠错工具

    Google开始将其拼写检查工具用于搜索结果中。例如,当输入查询条件为"Search Engine Optimisation"后,以往Google只会提示你是否是要找"Search Engine Optimization",但显示的还是符合"Optimisation"的搜索结果。不过现在则能看到"Optimization"的搜索结果。再如:"e-mail solution"和"email solution"的搜索结果一致,而"e-commerce"则与"ecommerce"的搜索结果是一致的,这样就增加了数据的竞争性。

    3.对Hilltop算法的分析和推测

    3.1 为什么采用新算法

    大多数网迷们都知道,页面等级算法是由Google的创始人Sergey Brin和Larry Page所倡起的,用以精良网站在搜索结果中的排名。这也是自1998年Google发布以来的取得种种骄人成绩的重要因素之一。

     但页面等级系统亦存在着一个基本的缺陷,Google也深知这一点。它根据一个网页上被链接的站点数量和质量来给该网页分配一个绝对的"重要性值"。同时亦将链接页面的页面等级考虑在内。指向一个网页的外部链接页的页面等级越高,则该链接页面传递给该网页的页面等级值也就越高。但是,"页面等级值"并非针对查询词语,因而一个网页即使只是在内容中偶然提到了一个和查询主题偏离的关键词语,也会因其居高的页面等级值而获得一个比较高的排名。

    美国加州的克利须那。伯哈拉特(Krishna Bharat) 意识到基于页面等级的排名系统中所存在的这种瑕玼,并于2000年提出了一种新算法,他称其为"Hilltop"算法,并于2001年的一月份申请了Hilltop专利权,Google成为受让方。不言而喻,Google已然意识到这种新算法与其页面等级系统的整合将为Google的排名系统带来良好的效果。

    我深信,在Google最近的更新中,不但运用了Google自身的页面等级和相关性算法,而且还结合使用了Hilltop算法用于精工调整页面等级的效果,只不过Hilltop算法可能已迥异于它最初的模样了。

    3.2 什么是Hilltop算法?

    对此算法有兴趣了解并想挖根究底的人可以看看克利须那。伯哈拉特当年所写的Hilltop论文及详细的Hilltop专利信息。但对我们大多数人来说,只要知道Hilltop算法到底是个什么东东就可以了。简单地说,页面等级决定一个网页的"权威性",而Hilltop(LocalScore)则决定匹配一查询条件的一个网页的"权威性"。

    Bharat提出:在利用"页面等级"来寻找"权威"网页时,不应单纯依赖于值的大小来定夺,而应将重点放在它与查询主题的相关性上; 即不但需要考虑网页的页面等级,还要考虑该网页的页面等级与查询主题的相关性是否相称。若一个网页只与查询主题只沾点边,那么即使其页面等级非常之高,对用户来说也是没有意义的。如此一来,于网页而言,那些来自于"相关主题"的文档的链接就更有意义了 (Bharat称这种"相关主题"文档为"专家文档"),一个网页的所有外部"专家文档"链接构成了该网页的"权威性值"。Hilltop算法的意义在于:相同主题网站之间的链接应比非相关网站的链接具有更高的价值。

    Hilltop算法以如下方式计算一个网页的"权威值"(这只是极为简单的一个例子):

    以该关键词进行一次普通查询找专家文档"文集"。"专家文档"的定义有严格标准,因该"文集"应是数量上易于管理的一组网页。

    从返回的专家列表中把成员站点(见下注解*)和镜象站点去掉。

    根据所获得的上述专家文档对其投票的数量和质量,网页被分配以一个“局部分数”(LocalScore)。然后按网页的“局部分数”进行排名。

   *注解:成员站点指来自同一个域,或域相同而后缀不同的站点,如ibm.com,ibm.co.uk,ibm.*****等等,或指来自相邻的IP地址的站点 (前三位IP地址相同,形如64.129.220.xxx)

    此外,若两个站点均为相同IP地址下的宿主,则认为其中一个是另外一个站点的成员站点。(即:若www.abc.com  www.ibm.com均为相同IP地址下的宿主,http://www.abc.com/http://www.ibm.co.uk/的成员站点)

    Hilltop算法的一个极其重要的特征在于:若没有找到搜索引擎认为数量足够的“专家文件”(要求至少需有两票),则该算法失效,即返回结果为零。换言之,对于高度明确化的查询条件(查询词语),Hilltop算法的结果很可能为“0”。这是该算法的一个独特特性。如此一来,造成了SEO一族中的大部分人都深信Google的确在用“商业词”过滤名单来过滤掉商业网站。

    事实上,在Hilltop算法无法奏效时,将显示“旧”Google的搜索结果。这些查询条件的集合就是SEO一族所收集并称之为的“商业词名单”。这一效果无意中却提供了一个强有力的证据,表明Google确是采用了Hilltop算法。2003年11月15号,Google基于新算法的更新之后, 某分析家就指出:在进行查询时,若对某一查询条件加上一些“不包含”的无意义字符,如“car rental – ghjkl”,则Google将会显示以往(算法变化前)的搜索结果,而绕过所谓的“商业词”过滤名单。

    例如,若查找“real estate –hdfkdhgk”,则Google将试图返回所有关于“real estate”,同时内容中又不包含“hdfkdhgk”的页面。又由于包含“hdfkdhgk” 这种字眼的网页几乎没有,所以按道理来讲,Google返回的查询结果应该和“real estate”的查询结果是相同的。然而结果却出人意料:Google所显示的查询结果和采用新算法之前的搜索结果的排名是相同的。事实上,Scroogle.org这个网站就是捕捉Google的搜索结果在排名上的不同,并以此得出一个所谓的“商业词”过滤名单。

    在所谓的“商业词”背后到底是什么?

    我们相信,“商业词”过滤式效果只是Hilltop算法的一个衍生症状。每当用户进行类似“real estate –hdfkdhgk”的查询时,Google都会对整个查询词语进行Hilltop运算,当无法找到足够的包含这种查询词语的“专家文件”时,该算法将返回一个零值(即零效果)。 这就意味着我们通过这种多少有些滑稽的特殊排除词语绕过了Hilltop算法, 这时候Google的其它算法就该出头发挥作用了,而它们所提供的查询结果明显地和算法更新前的查询结果是一样的! 后来Scroogle.org的声名鹊起让Goolge发现了这个bug。后来Google为了防止此类漏洞,索性把查询分成两步走,先把排除条件词语放一边,将查询条件送至Hilltop进行运算,如此一来,由于Hilltop不再同时对排除条件进行解析,所以可保证其正常发挥效用,并提供相应的搜索结果,然后再将此结果传递给Google算法,Google根据最初查询中的排除条件从Hilltop提供的结果中将符合排除条件的网页剔除,然后再将结果显示给用户。这也就是为什么我们现在用上面的法子再也无法看到“旧Google”的搜索结果的原因了。

    Google新算法意义何在

    Hilltop算法与Google的页面等级算法及页面相关性算法的结合看起来是超佳组合,几乎无懈可击。其联姻对于链接流行度/页面等级和来自专家文件(LocalScore)的链接对你网站的排名的影响程度有着深远的意义。