关键词是SEO的核心概念之一,在SEO实践中围绕关键词开展了大量的工作。本文试图将搜索技术原理与网站优化实践相结合,总结SEO中内容页面关键词布局的具体落地方法。
首先,简要介绍了搜索引擎的技术原理
搜索引擎的核心底层技术基础是将词切分查询成自然语言中有意义的短语,然后从索引数据库中找到这些短语中包含全部或部分关键词的内容,并返回结果。
正常人的搜索思路是带一个关键词,找出内容中是否包含该关键词。假设我们要从序号为1-10的10个网页中搜索包含“关键词布局”的网页,并在全文中搜索这10个网页是否包含“关键词布局”一词,然后返回包含该词的网页的序号。但是如果你从几百万或者几百万的网页上搜索,速度是非常慢的,所以你发明了倒排指数的概念。(下图中的数据不是实际数据,仅供说明)
如上所示,这是最简单的倒排索引模型(DocID是搜索引擎分配给已爬网网页的唯一编号)。搜索引擎爬虫每次抓取网页时,都会将网页分成若干个短语,并将这些词与倒排索引表逐一进行比较:如果倒排索引表的“关键字”一栏中有这个词,则在其对应的倒排列表中添加当前网页的编号DocID如果没有,就加一行(涉及新词识别,这里不展开),给这个关键词分配一个ID,然后写上当前网页的编号。这样,当我们查询“关键词1”时,很快就会知道相关网页是(1,2,3,5)。比较复杂的查询词假设分为三个词:“关键词1”、“关键词3”和“关键词6”,也可以快速查询相关网页(1、2、3、5、6、7、9)。
仅这一点不足以对搜索结果进行排序。在不作弊的情况下,某个关键词在网页中出现的次数越多,该关键词就越能代表网页的特征,前提是要过滤掉stop words(stop words是一个在几乎每一个网页中都有很多词但不能表达任何特定含义的词,如“的”、“是”、“的”等。).如果我们可以在倒排索引表中添加关键词频率信息(缩写:词频- TF),我们就可以对网页进行排序。如下图所示,当我们的查询词被分割成“关键词1”和“关键词2”时,相关网页可以排名为(3,5,1,2)。
假设有两个网页1和2,倒排索引中的信息如下:
我们搜索了“如何排列关键词”,搜索词分为“关键词”、“如何”和“布局”。其中,“关键词”、“如何”、“布局”分别在网页1中出现2次、2次、2次,共出现6次;“如何”和“布局”在网页2中出现七次。按照之前的逻辑,最终的搜索结果排名为(2,1),显然不是一个理想的排名结果。网页2的主题显然是关于“如何布局走”。此时,有必要引入IDF(逆文档频率索引)来解决这个问题。
如果网页集中包含关键词的网页较少,则该关键词具有更好的网页区分能力,因此IDF越大,权重越高。假设上图中“关键词”、“如何”、“布局”和“Go”的IDF分别为2.5、0.3、0.8和3,每个词的TF乘以IDF,网页1和2的相关性分别为7.2和4.6,那么搜索“如何布局关键词”的排名结果为(1,2)
关键词的位置信息也是一个关键点。一般认为标题中出现的关键词比正文中出现的相同关键词更能体现一个网页的主题特征,H标签的重要性就在于此。搜索引擎还可以根据代码布局和噪音比(比如停词频率)来判断导航在哪里,文字在哪里,侧边栏在哪里等等。这些位置信息将被标记在倒排参与排名决策的索引列表中。
此外,还有一些其他常用的技术方法,如:双词索引/短语索引。“如何排列关键词”不一定分为三个短词,也可能分为“关键词布局”、“如何排列词语”等;联想搜索,“关键词”的联想词“关键词”,以及“如何”的联想词“如何”等。
当然,在实践中,现代大型搜索引擎的倒排指数模型会复杂得多,排名算法中还会有很多其他因素(其中一个因素侧重于超链接分析)参与,不会因为篇幅和作者水平有限而有所扩展。
二、如何布局关键词
1.标题中必须有关键词,但不一定是完整的问题
鉴于搜索引擎会在词切分,搜索N个以上的词、双词短语并添加相关词来合并查询,标题中的关键词不一定是一个完整的问题,而典型的问题是“哪家公司更适合做XXXX”。标题不一定需要这个完整的词。即使标题包含这个完整的短句,也无法与其他完整的短句相匹配。一个高质量的网页往往可以匹配上百个长尾关键词。显然,一个标题不可能包含所有内容。标题的另一个重要功能是吸引点击量,点击率也是影响排名的一个因素,但核心词“XXXX”、“好”、“公司”必须出现。
2.一些核心词和分词在文本中自然均匀分布
在搜索引擎开发初期,很多技术人员利用TF*IDF算法权重高的弱点,堆砌大量关键词,从而快速获得更好的搜索排名。后来搜索引擎从算法层面修补漏洞打击作弊,网络上出现了“理想关键词密度为3%~8%”的流行思想。首先,这个密度不是计算完整的查询词,而是计算切分后的所有词。在实践中,你会发现一些关键词密度略低于3%的网页,以及一些关键词密度远高于8%的网页都能获得不错的排名。
如果你是搜索引擎工程师,你会怎么做?我想我会根据整个网络的历史访问数据(比如百度统计、手机百度,等)划定一个合理的范围和警戒范围。这样可以获得更全面的访问数据)和关键词密度信息。如果超出警戒范围,我会给予沉默处理。在警戒范围内,我会结合站点的历史数据和小流量排名第一阶段的访问数据反馈,决定是打压还是维持或者给出更高的排名。
相比关键词密度,更应该关注通顺的流畅性(盲目插入关键词繁琐尴尬)和内容质量的深度。毕竟搜索引擎中的排名因素有上百个,不容忽视。
3.对于相关内容和文本底部的侧边栏,建议使用适当的布局关键词
虽然搜索引擎可以通过代码和噪音的比例来判断这些不是身体部位,从而降低了这里一些关键词的权重,但是从百度快照缓存的角度来看,还是有点效果的。
文本底部和侧边栏中的相关内容和推荐内容大多是从横向和纵向角度选择的。比如这篇文章,主题是关于“关键词布局”,横向推送“网站结构布局”、“关键词挖掘技巧”等一些内容,很大概率会有很多访问者感兴趣;“教你如何打造优质外链”、“如何提高登陆页面转化率”的垂直推送,也是访客可能暂时压制的隐性需求。在增加关键词布局的同时,还可以提高pV,减少跳位,提升用户体验。为什么不呢?
作者:车站监控网络建设
来源:卢松松博客,欢迎在线提交
友情提醒:A5官方SEO服务为您提供权威网站优化解决方案,可快速解决网站流量和排名异常,网站排名无法突破瓶颈等服务:http://www.admin5.cn/seo/zhenduan/