专著于google左侧优化与企业网络营销策划研究 大鹰网·GOOGLE优化研究网·GOOGLE左侧排名·SEO·人才招聘·合作伙伴   
返回首页
  GOOGLE左侧排名|网站优化|网络营销策划|成功客户|网站推广 |网站建设 |苏州网站优化 |成都网站优化   联系我们  
大鹰网优化公司首页 > GOOGLE排名技术
  推荐服务
GOOGLE左侧排名
GOOGLE排名
GOOGLE优化
GOOGLE左侧优化
GOOGLE新闻
网站诊断
网络营销管理
Google排名技术指导
 
服务热线
    如果你对我们的网站优化google左侧排名、网络营销、网站建设、网站推广、有兴趣的话,你可以与我们取得联系!或者通过在线MSN,QQ交流。我们会第一时间为你解答你的网络营销的困惑。
大鹰网最佳网站优化及google左侧排名专家
公司总机:021-34240909
业务直线:021-64698358
传真:021-34240909-8008
地址:上海徐汇区宜山路520号中华门大厦503室
邮编:200233
24H监督电话:13651994188
 
  如何确定网页和查询的相关性?
发表时间:2007.06.06  

    我们今天谈谈如何确定一个网页和某个查询的相关性。一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎。
    我们还是看上回的例子,查找关于“原子能的应用”的网页。我们第一步是在索引中找到包含这三个词的网页。现在任何一个搜索引擎都包含几十万甚至是上百万个多少有点关系的网页。那么哪个应该排在前面呢?显然我们应该根据网页和查询“原子能的应用”的相关性对这些网页进行排序。因此,这里的关键问题是如何度量网页和查询的相关性。
    我们知道,短语“原子能的应用”可以分成三个关键词:原子能、的、应用。根据我们的直觉,我们知道,包含这三个词多的网页应该比包含它们少的网页相关。当然,这个办法有一个明显的漏洞,就是长的网页比短的网页占便宜,因为长的网页总的来讲包含的关键词要多些。因此我们需要根据网页的长度,对关键词的次数进行归一化,也就是用关键词的次数除以网页的总字数。我们把这个商称为“关键词的频率”,或者“单文本词汇频率”(Term Frequency),比如,在某个一共有一千词的网页中“原子能”、“的”和“应用”分别出现了2次、35次和5次,那么它们的词频就分别是 0.002、0.035和0.005。我们将这三个数相加,其和0.042就是相应网页和查询“原子能的应用”
    相关性的一个简单的度量。概括地讲,如果一个查询包含关键词 w1,w2,...,wN, 它们在一篇特定网页中的词频分别是:     TF1, TF2, ..., TFN。 (TF: term frequency)。 那么,这个查询和该网页的相关性就是:
    TF1 + TF2 + ... + TFN。
    读者可能已经发现了又一个漏洞。在上面的例子中,词“的”站了总词频的80%以上,而它对确定网页的主题几乎没有用。我们称这种词叫“应删除词”(Stopwords),也就是说在度量相关性是不应考虑它们的频率。在汉语中,应删除词还有“是”、“和”、“中”、“地”、“得”等等几十个。忽略这些应删除词后,上述网页的相似度就变成了0.007,其中“原子能”贡献了0.002,“应用”贡献了0.005。
    细心的读者可能还会发现另一个小的漏洞。在汉语中,“应用”是个很通用的词,而“原子能”是个很专业的词,后者在相关性排名中比前者重要。因此我们需要给汉语中的每一个词给一个权重,这个权重的设定必须满足下面两个条件:
    1. 一个词预测主题能力越强,权重就越大,反之,权重就越小。我们在网页中看到“原子能”这个词,或多或少地能了解网页的主题。我们看到“应用”一次,对主题基本上还是一无所知。因此,“原子能“的权重就应该比应用大。
    2. 应删除词的权重应该是零。
    我们很容易发现,如果一个关键词只在很少的网页中出现,我们通过它就容易锁定搜索目标,它的权重也就应该大。反之如果一个词在大量网页中出现,我们看到它仍然不很清楚要找什么内容,因此它应该小。概括地讲,假定一个关键词 w 在 Dw 个网页中出现过,那么 Dw 越大,w 的权重越小,反之亦然。在信息检索中,使用最多的权重是“逆文本频率指数”(Inverse document frequency 缩写为IDF),它的公式为log(D/Dw)其中D是全部网页数。比如,我们假定中文网页数是D=10亿,应删除词“的”在所有的网页中都出现,即Dw=10亿,那么它的IDF=log(10亿/10亿)= log(1) = 0。假如专用词“原子能”在两百万个网页中出现,即Dw=200万,则它的权重IDF=log(500) =6.2。又假定通用词“应用”,出现在五亿个网页中,它的权重IDF = log(2)
    则只有 0.7。也就只说,在网页中找到一个“原子能”的比配相当于找到九个“应用”的匹配。利用 IDF,上述相关性计算个公式就由词频的简单求和变成了加权求和,即 TF1*IDF1 + TF2*IDF2 +... + TFN*IDFN。在上面的例子中,该网页和“原子能的应用”的相关性为 0.0161,其中“原子能”贡献了 0.0126,而“应用”只贡献了0.0035。这个比例和我们的直觉比较一致了。
    TF/IDF(term frequency/inverse document frequency) 的概念被公认为信息检索中最重要的发明。在搜索、文献分类和其他相关领域有广泛的应用
    现在的搜索引擎对 TF/IDF 进行了不少细微的优化,使得相关性的度量更加准确了。当然,对有兴趣写一个搜索引擎的爱好者来讲,使用 TF/IDF 就足够了。 如果我们结合上网页排名(Page Rank),那么给定一个查询,有关网页综合排名大致由相关性和网页排名乘积决定。

 

 

  返回上一级目录   
相关文章:
什么是Google的“Page Rank”
Page Rank 的核心思想什么呢?
Google排名技术是怎么防作弊的?
怎样判断你是否被谷歌降权或删除了?
该网站可能会损害您的计算机”解释
Google发作弊团队讲解google技术
网络爬虫与搜索技术
Google技术怎样度量信息?
Google排名技术之中文分词
如何确定网页和查询的相关性?
Google排名技术揭晓
Google排名技术中心
Google排名技术之特色服务
google排名技术到google左侧优化
Google排名技术中的黄金法则
Google排名技术弊端
 
 超文本匹配分析:
    Google的搜索引擎同时也分析网页内容。然而,Google的技术并不采用单纯扫描基于网页的文本(网站发布商可以通过元标记控制这类文本)的方式,而是分析网页的全部内容以及字体、分区及每个文字精确位置等因素。Google同时还会分析相邻网页的内容,以确保返回与用户查询最相关的结果。
    Google的创新并不限于台式机。为了确保通过便携式设备访问网络的用户能够快速获得精确的搜索结果,Google还率先推出了业界第一款无线搜索技术,以便将HTML即时转换为针对WAP、i-mode、J-SKY和EZWeb优化的格式。。。。。。。
 
地址:上海徐汇区宜山路520号中华门大厦503室 邮编:200233
总机:021-34240909 业务直线:021-64698358 策划师24小时热线:13651994188
沪ICP备06057178号 Copyright @ 2004-2007 大鹰网 All Rights Reserve

在线QQ:387822504
MSN:hiseosem@gmail.com