荣耀小说网
会员书架
首页 > 都市 > 花开美利坚 > 第284章 谷歌一下

第284章 谷歌一下(2 / 4)

章节目录 加入书签
好书推荐: 血腥王座 剑楼 大医生 红色苏联 重生之最强妖王 修炼在骑士世界的领主 植物大领主 某死骑的位面监察员 造化炼体决 来自昆仑的男人

可是凯瑟琳突然想到自己似乎根本就没有了解过“网络蜘蛛”这个东西,虽然知道原理,但是想要nong出来……似乎还有些麻烦。

“看来还给成立一个工作组才行。”

开始了抱着双手站了起来。

“我觉得我们公司的人才已经够紧张的了。”艾尔莎将红茶和茶饼放在了凯瑟琳的桌上。

“没关系,到了五月份,这种情况就能得到缓解。”intel与斯坦福大学的合作培养的第一批学生已经快要毕业了,有了他们的加入,公司的人才紧缺的问题必然能够得到一定程度的缓解。

“至少在未来十年内,我们公司的人才都有可能是供不应求,这是一个急速扩张的产业,和那些传统行业是不一样的。”

——直到21世纪,这些行业对于人才的渴求依然是强烈的。

当然,中国除外——因为那里的人实在是太多了,乃至于都有了“it民工”的说法。

凯瑟琳坐了下来,然后喝了一口红茶。

她一边喝着茶,一边在思考着应该如何写一个网络蜘蛛的程序出来。

评价一个网络蜘蛛的好坏,有三个方式,一个是覆盖率,网络蜘蛛的首要目标是抓取互联网上所需的信息。因此,有价值的信息是否都收录,收录的比例是网络蜘蛛的基本评价指标;第二个则是时效xing,即事件发生并在互联网上传播后(以新闻、论坛、博客等各种形式),用户需要通过搜索引擎尽快能检索到相应内容。而索引的前提是收录,因此需要网络蜘蛛尽快的抓取互联网上最新出现的资源;最后则是重复率,互联网上重复的内容很多,如何尽早的发现页面重复并消除之,是网络蜘蛛需要解决的问题。除转载导致的重复外,重复总能体现为各种不同的模式,站点级重复,目录级重复,cgi级重复,参数级重复等等,及早发现这些模式并进行处理,能节省系统的存储、抓取、建库和展现资源。

第一个问题最好解决,因为美国电信的根服务器就在宜搜小说页的覆盖率永远都是100。

需要解决的是第二和第三个问题。

事实上这也不是个大问题,原理很容易解决,最重要的一环在于需要一个高效率的程序。

光凭自己一个人的话,可能需要不少的时间。凯瑟琳一直梦想的是当一个甩手掌柜,这事怎么能够发生呢?——于是,找人就是必须的。

最后,凯瑟琳决定从微软的phoenix-stargate开发组chou调了三个人出来,帮助开发这个网络蜘蛛程序。

反正星mén系统的开发已经差不多了,这个时候自己chou调一些人出来开发网络蜘蛛完全不是问题。

网络蜘蛛是搜索引擎的一个最核心的部分。有了这个程序之后,搜索引擎的建立就会非常简单了。

那……自己的这个网站应该叫什么名字呢?

点击切换 [繁体版] [简体版]
章节目录 加入书签
新书推荐: 七零知青娇又软,禁欲大佬宠不够 在伟大航路养小动物 原配冰肌玉骨,随军后被宠上天 老板在上 像昨天一样说晚安 全世界都在等我们结婚 我不当舔狗后,镇压天地万物 青苹果 超级农业霸主 修真英格兰
热门推荐