搜索引擎TF-IDF算法
浏览:369 时间:2021-11-9

我在博客里已经说过,学习seo研究算法是很愚蠢的,但是很多人还是会问se算法的问题,其中最多的就是TF-IDF算法。为了加深人们对这个问题的理解,我将深入分析这个算法的一些问题。

首先,什么是TF-idf?

Tf和idf是两个不同的概念。TF通过单词在文档中的重复次数来表示单词在所有术语中的重要性,而另一个IDF则表示单词在所有文档中的重要性。出现的次数越多,常用词就越多。因为主题不强,重复越多,重要性越低。TF-IDF是一种统计方法,

它用于评估一个单词对文档集或语料库中一个文档的重要性。单词的重要性与它在文档中出现的次数成正比,但与它在语料库中出现的频率成反比。各种形式的TF-IDF权重通常被搜索引擎用作

这个百科的解释和我自己的描述,不知道大家是不是都很清楚。总之,TF-IDF通过一定的统计意义来表达术语的重要性。为什么seo会关注他,因为他可能会影响搜索词和搜索词之间的相关性,进而影响排名。

二、TF-IDF算法解决了什么,能起到多大的效果?

其实既然研究了这个算法,就不能不理解这个算法解决了什么。其实就像我刚才说的,主要是解决一个文档中的词条权重问题(很多人知道这个算法影响排名,但是不知道为什么这个算法会影响排名)。那么我们可以再问一次,影响条款权重的因素有多少?目测只有5、6个左右(但是我们都知道有多少个呢?),TF-IDF在词汇项中占据什么位置?重要性可能排在第三和第四(不是最重要的因素)。而且我一直说,如果真的要研究算法,不仅要研究什么是算法,还要考虑算法的特性和算法特性的处理,因为它们都影响最终的结果,比如这个TF-IDF算法。

三、TF-IDF的算法特点是什么

这是人们很少注意的一点。算法特征和算法特征的处理之所以重要,是因为每个算法都会控制因素的影响,或者说平滑处理。这也不例外。很多人没有注意到这种影响,或者对它有激进的想法,所以他们会担心很多seo细节,但他们无法理解。想学这个,我觉得谷歌的黑板报讲了很多算法,很多实际应用模型和理论模型有一定差距,这就是现实。

第四,TF-IDF算法又上去了,问题的来源是什么,检索的位置是什么?

其实我一直推荐的是从更长远的角度来看待这个问题,比如TF-IDF应该解决的问题的根源是什么,这个问题在检索原理中能占据什么位置,是否会随着时间而改变。只要你想起来,慢慢出现更多的seo,TF-IDF也可以慢慢放弃。

第五,超越算法

TF-IDF用于研究术语的权重,早期用于判断相关性,但不一定是静态的。比如BM25算法在很多方面比他更有优势。然而,随着语义分析等检索技术的发展,这种算法的范围和影响将逐渐受到限制。这也是学习算法的悲剧。而且,我一直说的是,我们可以跳出这个范畴,从问题本身去思考,或者从检索的角度去观察这个问题的意义,观察解决这个问题的可行性,观察结果和我们所想的差距.嘎嘎,不能再进一步了.

PS:最近一直在飘来飘去,在开发新的东西,时间不够。我看博客的时候几乎总是有想法,一口气看完大概要30分钟。难免有很多瑕疵,不要想当然。我会继续更新seo思维进化系列。虽然里面没有技术,但我觉得还是有一些东西值得seoer思考的。下面我也打算写一些seo入门的东西,希望能给一些新人一些帮助。我这么做的主要目的是希望大家能冷静看待seo,慢慢回到正确的方向。

文章来源:微信官方账号SEO战斗营(ID: ilottecn),原创链接:/s/0nv t7vqrsndwj _ gwc7 voice