孙荣辛|大数据穿针引线进阶必看——Google经典大数据知识
大数据技术的发展是一个非常典型的技术工程的发展过程,荣辛通过对于谷歌经典论文的盘点,希望可以帮助工程师们看到技术的探索、选择过程,以及最终历史告诉我们什么是正确的选择 。
何为大数据
“大数据”这个名字流行起来到现在,差不多已经有十年时间了 。在这十年里,不同的人都按照自己的需要给大数据编出了自己的解释 。有些解释很具体,来自于一线写 Java 代码的工程师,说用 Hadoop 处理数据就是大数据;有些解释很高大上,来自于市场上靠发明大词儿为生的演说家,说我们能采集和处理全量的数据就是大数据,如果只能采集到部分数据,或者处理的时候要对数据进行采样,那就不是大数据 。
在笔者看来,其实“大数据”技术的核心理念是非常清晰的,基本上可以被三个核心技术理念概括 。
- 服务器规模:能够伸缩到一千台服务器以上的分布式数据处理集群的技术 。
- 服务器架构:这个上千个节点的集群,是采用廉价的 PC 架构搭建起来的 。
- 编程模式:“把数据中心当作是一台计算机”(Datacenter as a Computer) 。
笔者认为,Google 能成为散播大数据火种的人,是有着历史的必然性的:作为一个搜索引擎,Google 在数据层面,面临着比任何一个互联网公司都更大的挑战 。无论是 Amazon 这样的电商公司,还是 Yahoo 这样的门户网站,都只需要存储自己网站相关的数据 。而 Google,则是需要抓取所有网站的网页数据并存下来 。而且光存下来还不够,早在 1999 年,两个创始人就发表了 PageRank 的论文,也就是说,Google 不只是简单地根据网页里面的关键字来排序搜索结果,而是要通过网页之间的反向链接关系,进行很多轮的迭代计算,才能最终确认排序 。而不断增长的搜索请求量,让 Google 还需要有响应迅速的在线服务 。
三驾马车和基础设施
面对存储、计算和在线服务这三个需求,Google 就在 2003、2004 以及 2006 年,分别抛出了三篇重磅论文 。也就是我们常说的“大数据”的三驾马车:
经验总结扩展阅读
- 洋气好听的电商名字活泼大气的电商美名
- 下个月桃花萦绕月老牵线 真爱降临成功脱单的4大星座
- 近段时间内桃花运如约而至 相亲成就好姻缘的4大星座
- 五金创意店名取名字大全免费 吉利好听的五金店名
- 下月起大富大贵好运来 财富与日俱增的4大星座
- 下个月财运旺事业上升 疯狂敛财前途无量4大星座
- 未来一个月内鸿运来袭 财富数不清的4大星座
- 一个月后福气吉祥 富贵入家宅的4大星座
- 4大星座在开学后 学业运高涨
- 未来一周桃花大势盛开 4个星座遇见对的人