如何快速抠图_抠图在线生成网_图片在线设计_在线长图生成器_切图软件
当前位置:建站首页 > 新闻资讯 > 员工天地 >

[SEO优化算法]TF

发表日期:2021-04-04 01:41文章编辑:jianzhan浏览次数: 标签:    

    一、TF-IDF优化算法介绍:     TF-IDF优化算法是一种用以信息内容查找与数据信息发掘的常见加权技术性。TF的含意是词频(Term - frequency),IDF的含意是反向文档頻率(inverse Document frequency).TF-IDF是传统式的统计分析优化算法,用以评定一个词在一个文本文档集中化针对某一个文本文档的关键水平。它与这一词在当今文本文档中的词频正比,与文本文档集中化的别的词频成反比。 TF-IDF算法     二、TF-IDF优化算法运用之全自动获取重要词:     一个非常容易想起的构思,便是寻找出現频次数最多的词。假如某一词太重要,它应当在这里一篇文章中有次出現。因此,大家开展 词频 (Term Frequency,简称为TF)统计分析。結果你毫无疑问猜中了,出現频次数最多的词是---- 的 、 是 、 在 ----这一类最经常用的词。他们称为 停止使用词 (stop words),表明对寻找結果没什么协助、务必过虑掉的词。假定大家把他们都过虑没了,只考虑到剩余的有具体实际意义的词。那样又会碰到了另外一个难题,大家将会发觉 我国 、 发展趋势 、 方位 这三个词的出現频次一样多。它是并不是寓意着,做为重要词,他们的关键性是一样的?显而易见并不是那样。由于 我国 是很普遍的词,相对性来讲, 发展趋势 和 方位 不那麼普遍。假如这三个词在一一篇文章的出現频次一样多,言之有理由觉得, 发展趋势 和 方位 的关键水平要超过 我国 ,换句话说,在重要词排列上边, 发展趋势 和 方位 应当排到 我国 的前边。因此,大家必须一个关键性调节系数,考量一个词不是是普遍词。假如某一词较为罕见,可是它在这里一篇文章中有次出現,那麼它极可能就体现了本文的特点,更是大家需要要的重要词。     用统计分析学語言表述,便是在词频的基本上,要对每一个词分派一个 关键性 权重值。最经常见的词( 的 、 是 、 在 )给与最少的权重值,较普遍的词( 我国 )给与较小的权重值,较罕见的词( 发展趋势 、 方位 )给与很大的权重值。这一权重值称为 逆文本文档頻率 (Inverse Document Frequency,简称为IDF),它的尺寸与一个词的普遍水平成反比。     下边便是这一优化算法的关键点。     第一步,测算词频:
TF-IDF算法 TF-IDF算法     或是
TF-IDF算法     第二步,测算逆文本文档頻率:     这时候,必须一个语料库(corpus),用于仿真模拟語言的应用自然环境
TF-IDF算法     假如一个词越普遍,那麼分母就会越大,逆文本文档頻率就会越小越贴近0。分母往往得加1,是以便防止分母为0(即全部文本文档也不包括该词)。log表明对获得的值取多数。     第三步,测算TF-IDF:
TF-IDF算法     能看到,TF-IDF与一个词在文本文档中的出現频次正比,与该词在全部語言中的出現频次成反比。因此,全自动获取重要词的优化算法就很清晰了,便是测算出文本文档的每一个词的TF-IDF值,随后按降序排序,取排到最前边的好多个词。     還是以《我国的蜜峰饲养》为例子,假设该文长短为1000个词, 我国 、 蜜峰 、 饲养 各出現20次,则这三个词的 词频 (TF)都为0.02。随后,检索Google发觉,包括 的 字的网页页面现有250亿张,假设这便是汉语网页页面数量。包括 我国 的网页页面现有62.三亿张,包括 蜜峰 的网页页面为0.484亿张,包括 饲养 的网页页面为0.97三亿张。则他们的逆文本文档頻率(IDF)和TF-IDF以下: TF-IDF算法     从上表由此可见, 蜜峰 的TF-IDF值最大, 饲养 次之, 我国 最少。(假如还测算 的 字的TF-IDF,那将是一个极为贴近0的值。)因此,假如只挑选一个词, 蜜峰 便是本文的重要词。     除开全自动获取重要词,TF-IDF优化算法还能够用以很多其他地区。例如,信息内容查找时,针对每一个文本文档,都可以以各自测算一组检索词( 我国 、 蜜峰 、 饲养 )的TF-IDF,将他们相加,便可以获得全部文本文档的TF-IDF。这一值最大的文本文档便是与检索词最有关的文本文档。     TF-IDF优化算法的优势是简易迅速,結果较为合乎具体状况。缺陷是,单纯性以 词频 考量一个词的关键性,不足全方位,有时候关键的词将会出現频次其实不多。并且,这类优化算法没法反映词的部位信息内容,出現部位靠前的词与出現部位靠后的词,都被视作关键性同样,它是歪斜确的。(一种处理方式是,对全篇的第一段和每一段的第一句话,给与很大的权重值。) TF-IDF算法     以便简易考虑,大家先从语句下手:     语句A:我很喜欢看电视剧,讨厌看电视剧     语句B:我不会喜爱看电视剧,都不喜爱看电视剧     我想问一下如何才可以测算上边几句话的类似水平?     基本构思是:假如这几句话的措辞越类似,他们的內容就应当越类似。因而,能够从词频下手,测算他们的类似水平。     第一步,词性标注。     语句A:我/喜爱/看/电视机,不/喜爱/看/影片。     语句B:我/不/喜爱/看/电视机,也/不/喜爱/看/影片。     第二步,列举全部的词。     我,喜爱,看,电视机,影片,不,也。     第三步,测算词频。     语句A:我 1,喜爱 2,看 2,电视机 1,影片 1,不 1,也 0。     语句B:我 1,喜爱 2,看 2,电视机 1,影片 1,不 2,也 1。     第四步,写成词频空间向量。     语句A:[1, 2, 2, 1, 1, 1, 0]     语句B:[1, 2, 2, 1, 1, 2, 1]     到这儿,难题就变为了怎样测算这2个空间向量的类似水平。     大家能够把他们想像成室内空间中的两根直线,全是从原点([0, 0, ...])考虑,偏向不一样的方位。两根直线中间产生一个夹角,假如夹角为0度,寓意着方位同样、直线重叠;假如夹角为九十度,寓意着产生直角,方位彻底不类似;假如夹角为180度,寓意着方位恰好反过来。因而,大家能够根据夹角的尺寸,来分辨空间向量的类似水平。夹角越小,就意味着越类似。     以二维室内空间为例子,图中的a和b是2个空间向量,大家要测算他们的夹角 。余弦定理告知大家,能够用下边的公式计算求得:     假设a空间向量是[x1, y1],b空间向量是[x2, y2],那麼能够将余弦定理改变成下边的方式:
    数学课家早已证实,余弦的这类测算方式对n维空间向量同样成立。假设A和B是2个n维空间向量,A是 [A1, A2, ..., An] ,B是 [B1, B2, ..., Bn] ,则A与B的夹角 的余弦相当于:     应用这一公式计算,大家便可以获得,语句A与语句B的夹角的余弦。     余弦值越贴近1,就说明夹角越贴近0度,也便是2个空间向量越类似,这就叫 余弦类似性 。因此,上边的语句A和语句B是很类似的,客观事实上他们的夹角大概为20.3度。     (4)测算2个空间向量的余弦类似度,值越大就表明越类似。     余弦类似度 是一种十分有效的优化算法,要是是测算2个空间向量的类似水平,都可以以选用它。
相关新闻

苍南龙港镇SEOseo优化

More than ten years dedicated technology services, development and application,providing a one-stop, work brand service...

日期:2021-04-03 浏览次数:163

SEO已死确实吗 十年SEO从事者的思索

SEO已死?它是近几年来,SEO制造行业常常被谈及的难题,它很受欢迎,但针对每一个人来讲,它...

日期:2021-04-02 浏览次数:188

郑州市seo学习培训学习培训组织(郑州市seo哪一

近期初学者朋友与我聊到数最多得话题便是如何应用检索模块,由于检索模块就是我们新手最...

日期:2021-04-01 浏览次数:98

岳阳市seo提升(怎样屏蔽掉搜索引擎蜘蛛对网站

依据自身的本人工作经验进行了本文,期待对SEOer有点儿协助,大神立即绕过,请勿洒水。。...

日期:2021-03-31 浏览次数:95

seo提升是啥含意?这种你确实掌握吗?

许多公司管理方法工作人员听闻如今做互连网营销推广实际效果非常好,因此就赶快联络一家...

日期:2021-03-31 浏览次数:61

野狼SEO强悍实例:百度搜索权重值5,日总流量预

全新信息:野狼SEO,郑州市seo优化技术专业服务提供商,我国纯白帽子SEO提倡者!^-^纯白帽子...

日期:2021-03-29 浏览次数:195