金山云王育林:大数据不是数据本身
2014-05-29来源:未知
 ■ 来源:腾讯财经

       金山云总裁王育林在会上发表了名为“关于大数据的观察与思考”的演讲,全文如下:
       今天是一个行业内的交流会议,关于讲些什么想了很长时间,所以想技术这些东西不拿出来跟大家聊了。把我们这段时间做这个事情的观察和思考跟大家分享一下。
       这些是美国那边统计到的一些大数据的具体情况,跟我们的生活非常相关,每天产生2.5EB的数据,每4小时沃尔马得到的顾客交易数据量是2.5PB,我们国内也是一样。
       谈到大数据还谈到互联网什么是大数据,我们认为大数据不是数据本身,更多的是数据能力,包括数据存储能力和运算能力。这三个能力都具备才可以看作是一个大数据。
       现在行业中很多大数据容易被传统行业的人所接受,因为大数据带来的是经验的回馈,比较容易被理解,传统的时候我们采集数据是采集样本,是能力所限。采集样本之后我们做模型推倒再得出结论。其实很复杂。大数据时代,很容易直观的是采集几乎所有的数据样本。
       很多人说多大的数据算是大数据?数据是不是越大越好?就我自己的观察力看,其实数据确实是越大越好,但是采集数据能力现在很多已经具备了,但是存储和计算能力还是需要有一定的技术门槛特别是成本的门槛。大数据也有一定的规则,跟我们做的业务相关,只要能做到对我们所要做到的样本空间能充分的覆盖,基本就够了。不用单纯的追求无限大。对行业者来讲大数据成本相对来说还是非常的。它并不是一个那么高成本的事情。
       之前我们通过抽象的模型做数据分析,现在我们每采一个样本就装进去一样,数据越多的时候就越不需要模型,其实这是典型的积累量变,甚至不用做任何思考,数量达到一个极限的时候自然而然会发现其中的规律。
       大数据有三个趋势:第一个以互联网为平台。这是目前大数据很多公司和传统企业容易忽略的一点。大数据还是以互联网基础的。我们做大数据的时候还是要看看自己本身的信息化做得如何。
       第二个大数据是数据为中心的计算,不以模型为主导,不需要做抽样或者做样本,也不用做很复杂的推倒或者逻辑分析,只要看到数据,只要运算足够就可以了。
另外大数据是以部署为推动的,数数据能够产生的,是由量变到质变的过程。企业如果运用大数据部署就是最关键的。任何一个业务要让它活起来,形成一个新的良性的循环。
       卫留我们认为:将会出现更多私有云、云端和移动顿二二为一及新的PC形态一个人云,针对特定行业和社区的运开时流行,云作为一个术语定义逐渐淡出实现。
谈到大数据很人多会想到大型企业或者是超大型的企业更需要大数据,但是实际情况很多时候中小企业做大数据需求更多一些。中小企业可能基本数据化能力都不具备,但是中小型企业客户数量和客户行为需要这样一种行为的,做大数据反倒可能是市场会在中小企业里有一些惊惊喜。
       目前我们自己能支持1000P规模,现在实际目前用户量已经超过了50P,据我所知是目前国内做数据最大的规模。我们现在每天处理的,包括采到的各种信息已经超过了20个T,无论是数据存储还是数据运算能力,金山在数据这块是最领先的公司。在座都是同行,如果需要合作会后可以跟我联系。谢谢大家!