| |
 |
| 如果你对我们的网站优化google左侧排名、网络营销、网站建设、网站推广、有兴趣的话,你可以与我们取得联系!或者通过在线MSN,QQ交流。我们会第一时间为你解答你的网络营销的困惑。 |
大鹰网最佳网站优化及google左侧排名专家
公司总机:021-34240909
业务直线:021-64698358
传真:021-34240909-8008
地址:上海徐汇区宜山路520号中华门大厦503室
邮编:200233
24H监督电话:13651994188 |
|
 |
|
|
网络爬虫与搜索技术 |
发表时间:2007.06.06 |
|
|
互联网其实就是一张大图,我们可以把每一个网页当作一个节点,把那些超链接(Hyperlinks)当作连接网页的弧。很多读者可能已经注意到,网页中那些蓝色的、带有下划线的文字背后其实藏着对应的网址,当你点下去的的时候,浏览器是通过这些隐含的网址转到相应的网页中的。这些隐含在文字背后的网址称为“超链接”。有了超链接,我们可以从任何一个网页出发,用图的遍历算法,自动地访问到每一个网页并把它们存起来。完成这个功能的程序叫做网络爬虫,或者在一些文献中称为"机器人"(Robot)。世界上第一个网络爬虫是由麻省理工学院(MIT)的学生马休.格雷(Matthew Gray)在1993年写成的。他给他的程序起了个名字叫“互联网漫游者”("www wanderer")。以后的网络爬虫越写越复杂,但原理是一样的。
比如雅虎公司(Google没有公开公布我们的数目,所以我这里举了雅虎的索引大小为例)宣称他们索引了200亿个网页,假如下载一个网页需要一秒钟,下载这200亿个网页则需要634年。因此,一个商业的网络爬虫需要有成千上万个服务器,并且由快速网络连接起来。如何建立这样复杂的网络系统,如何协调这些服务器的任务,就是网络设计和程序设计的艺术了。 |
|
|
 |
|
 |
|
 |
Google的搜索引擎同时也分析网页内容。然而,Google的技术并不采用单纯扫描基于网页的文本(网站发布商可以通过元标记控制这类文本)的方式,而是分析网页的全部内容以及字体、分区及每个文字精确位置等因素。Google同时还会分析相邻网页的内容,以确保返回与用户查询最相关的结果。
Google的创新并不限于台式机。为了确保通过便携式设备访问网络的用户能够快速获得精确的搜索结果,Google还率先推出了业界第一款无线搜索技术,以便将HTML即时转换为针对WAP、i-mode、J-SKY和EZWeb优化的格式。。。。。。。 |
|
 |
| |
|
|