登录
首页职业发展阿里巴巴技术负责人王坚谈大数据_大数据培训
阿里巴巴技术负责人王坚谈大数据_大数据培训
2015-03-09
收藏

阿里巴巴技术负责人王坚谈大数据_大数据培训


今日(10日)证监会邀请阿里巴巴集团主席马云讲解互联网金融。阿里巴巴技术负责人王坚谈大数据问题。

以下是发言全文:

王坚:我觉得马云还是有些故事应该讲讲的,跟我们今天的主题是有关系的,我想就是关于大数据与计算,我觉得还有一个字,就是三个字应该是在一起就成为我们今天主题的,就是倒过来讲的话就是互联网、数据、和云计算,我想把这三个讲一下,做到那个。因为讲到互联网非常重要,这个为什么讲这个,马云还是有一些其实应该讲讲的,其实阿里巴巴的成功就是相信一件事情,就相信互联网。如果用今天的话来讲的话,其实是相信互联网成为一个国家经济社会发展的基础设施,这是非常重要的,但是在刚刚阿里巴巴做这个事情的时候互联网不是基础设施,所以为什么有故事应该讲讲呢,我不知道是正版还是盗版的。

就是当时这个做黄页的时候,阿里巴巴做黄页的时候,其实那个时候中国大部分人是没有办法访问互联网,所以阿里巴巴是把企业信息放到还在国外的互联网,而为了证明这个网页是存在的,还把它打印出来寄回到中国,告诉我们的客户说这个东西其实在互联网上。那么这个意味着什么呢?意味着在那个时候互联网真的就是一个工具,它不是一个基础设施,但是今天的话,互联网其实成为一个基础设施,所以刚才讲到电,实际上在这个屋子里,我相信你找一个电源插座的难度要超过你今天上互联网,所以这是我要表达的一件事情,就是互联网变成了基础设施。

因为互联网变成了基础设施,所以出来了两个东西,也是今天很多人没有意识到的,所以很多人在讲大数据的时候,他会离开互联网讲大数据,说我家里的数据很多,就是大数据,其实这个观点是错的,只有在互联网上,跟互联网连着的数据才是真正意义上的大数据,而不是关起门来的数据。所以大家想想看,如果纯粹从量的角度讲的话,可能欧洲的那个CERN,就是那个做基本物理学研究的那个地方,可能是世界上数据最多的一个地方,但是很少人会说它是大数据,原因是那个数据不在互联网上。所以我想有大数据出来,或者有数据会变成一个所谓的数据及一个时代的话,是因为有互联网,这个互联网使得所有的数据变成了能够重新来审视它的价值的一个东西。

那么第三个,云计算为什么会出来呢?当数据出来之后,数据怎么产生价值,那靠的是什么?靠的是计算能力,所以大家可以想像一下,就是说当你有互联网的时候,一定会沉淀下来数据的。注意一下我没有说收集数据,数据是沉淀下来的数据,大家想一想,看人民日报,跟在一个网站上看新闻有什么差别?最大的差别就是数字,如果你看人民日报,人民日报最多就知道我印了多少份,再多注意一点,就是发行了多少份,再往前走一点,也就是投寄到了也就是传达了多少份就结束了,没有办法知道是谁看的,在什么时候看的,看的什么东西,都去看了别的什么东西。但是你在网上看新闻,不是因为互联网想故意探测你的隐私,故意想知道你在干什么,而是互联网的特征第一天就知道是谁在看什么,尽管不知道这个具体人是谁,看的什么东西,看了多长时间,看完了又看什么东西,所以我想这是数据沉淀的这么一个过程。那么这个数据沉淀的过程在传统社会也有,只是那个时候,经常会讲,其实大家想想看,只要有基础设施,一定会有数据,但是数据只有到互联网上才变成真正的价值。而且想想看,只要修了路你去了一个商店,其实走过去的时候会留下脚印,只不过这个脚印太难分析了,你没有办法存下来,所以自然而然大家就没办法用。可是互联网上这个数据留下来会变得比较容易做这件事,所以我想表达的第一个意思就是互联网让数据沉淀,变得很简单。那么这非常像在金融讲,也非常像从我们用现金来支付,到信用卡,到今天的支付宝,其实是数据越来越容易沉淀。用现金是最不容易沉淀数据的地方,而用信用卡让数据沉淀变的比较容易些,完了到像支付宝的话,就更多了,因为用现金的话,你根本不知道在什么地方消费了多少了。到信用卡的时候你知道在什么地方消费了多少,到了支付宝的时候你消费了,还知道这个货送到哪里。不是我们故意要知道货送到哪里,是整个的业务的流程决定了你知道什么东西,所以讲数据是沉淀下来的,不是收集下来的。

第二个我想讲,云计算的重要性。大家想想看,就是在讲数据的时候有一个误区,这个可能是在证监会,大家有时候会讲是不是阿里巴巴呢?其实我也听到一些似是而非的说法,因为他跑到阿里巴巴来说,阿里巴巴的数据特别值钱,他也会讲这个事情。其实数据值不值钱跟数据本身没有关系,就是从过去大家讲信息到今天讲数据,其中一个很重要很重要的事情就是说,数据到底值不值钱跟数据自身没有关系,是用数据的方法,所以在计算实际上是让数据产生价值的方法。

那么在互联网上有一个非常经典的例子,就是就大家可能比较熟悉的咱们不说阿里巴巴,但是谷歌是一家什么企业,谷歌是第一天它拿全世界都有的数据,就是互联网上的一个网页,做了一个东西叫搜索,完了以后是他的第一个business,所以大家想想看全世界的网页不属于任何一家公司,哪个都可以拿到的。谷歌为什么有能力把它变成搜索,是因为他的计算,所以它就能够去索引全世界的网页,到今天为止,全世界也只有这么一家公司是可以去索引万万亿网页的公司,它靠什么,它有全世界所有的普通公司都用的上的数据,但是他有足够的计算能力去做这个索引,所以这是谷歌做的第一件事情。

第二件事情大家都说谷歌做广告,其实不是。谷歌真正它能够挣钱,它发现了一件什么事情?发现了一件事情,全世界人民都没有搞清楚这个东西有价值,它搞清楚了,是什么,就是一个人按了一下鼠标。大家想想看,这个一个人按了一下鼠标,按一下鼠标这个东西是没有价值的,但是呢,谷歌发现当有万万亿成千上万亿的点击放在一起的时候,你如果用足够多的计算去处理它,是能够猜得出每一个点击的商业意图,所以它就拿这个东西做了广告。所以实际上谷歌不是做广告,谷歌是把一个大家都觉得没有商业意图的鼠标点一点,变成了一个大家可以猜出它的商业意图,使他有今天的竞争能力。所以大家想,是说只要有人讲这个数据时代,实际上都是在讲怎么把沙子变成金子,这个过程靠的就是计算。那我想谷歌可能是一个蛮好的例子,那大家想想看,在谷歌以前,谁能够收集到那么多的鼠标的点击?其实是有家公司叫微软,大家知道你只要用它的(?)系统就得到这个点击,可是微软从来不觉得那是财富,直到谷歌发现这个秘密为止。

所以我想说的另外一个表达的意思就是说,数据这个东西是靠计算来产生价值的。那么倒过来讲,如果谷歌每处理一个点击所用掉的计算成本要高于它挣过来的钱的话,那是要破产。那么云计算说到底,给你足够的计算能力还要足够便宜的计算,你才能够让这个生意做下去。就跟今天电一样,如果用了一度电所产生的价值不足以支撑你的电费的话,这个生意是做不下去的,所以这个三层的关系,我总结下来就是互联网是一个国家经济社会发展的基础设施,因为这个基础设施使得数据可以比人类历史上更快的速度,更大的规模被沉淀下来,不是被收集下来,完了以后,这个因为有了符合这个成本规律的计算,这是云计算使得我们产生了这么一个新的时代。

那么如果说在北京讲,就北京的八达岭高速,这是一个基础设施,因为这个太关键了。就是我在外面讲,北京有条八达岭高速,我一直觉得刚刚八达岭高速出来的时候其实就是一条便道,不管是八达岭高速修得多宽,跑得速度有多快,为什么呢?因为它只是为了方便从北京到八达岭这么一个简单的功能,它不是国家的基础设施。那么大家今天都知道,今天八达岭高速是京藏路的一部分对吧,只有是京藏路的一部分的时候,它才真正成为国家的基础设施,这是我要表达的三个意思。

那么最后我要举几个例子来说一下这个数据到底在社会能起什么作用,我们真正能够解决的社会问题在哪里。这是在阿里上的真正的客户的例子。第一个例子我要讲什么,大家今天从来没有听说过的一家公司我最近去看了看,大概过几天新闻节目会把它当成案例来讲。就是在贵州有一家企业叫货帮,货车就大货车的意思,帮是帮助的帮。你们可能没有听说过,这家企业干什么呢?这家企业其实老板创始人以前是管一个大的货车车队,他就发现一个秘密,什么秘密呢?中国的货车司机,中国的货车跟美国的货车不一样,中国的货车是车头跟车厢是绑在一起的,美国货车是车头跟车厢是分开的,所以它的效率会很高,那么中国是车头跟车厢是绑在一起的。他发现一个简单的秘密是什么?就是中国的一个货车司机,一个车两个司机,要拉一趟库,平均要空驶100公里就是他要跑100公里才拉到货。然后这个人为什么会想到创建货车帮,他自己的亲身的一次最让他难忘的一个事情,就是他有一次为了拉一趟货,空跑了600公里,大家知道如果一个车空跑了600公里,就知道他拉什么都是不挣钱的。

完了他发现这么一件事情以后,他就想,做一件非常简单的事情,怎么用互联网来帮助司机把这100公里省下来,就把这100公里省下来。所以他就创办了这样一个公司叫货车帮。做的一些事情非常简单,就跟阿里巴巴早期做的一样,就是让司机,货在什么地方能匹配起来,就这么简单一件事情。那么创建了大概两年多,2014年,就是去年,1年,这家公司就靠做这么一个匹配,他大概有六十多万辆汽车,三千多万司机,就这么一点量,去年一年为这些司机省下来的油费是100亿人民币,听着是蛮吓人的。我看了这个数字我都觉得为我们的环境做了多大的贡献。而这就是一家只有一两百个人完全是也没有任何什么大的背景,靠这些创意来做的。完了以后这些司机今天每天拉货的这个货款,就是今天拉货的货款,就超过50亿人民币

所以大家想想看,就是一个一百多家的企业靠这么一个简单的事情为产生那么大的价值,靠的什么?靠是互联网作为一个基础设施,靠的是看起来很简单的数据做一次匹配,就像早期我们做P2P也是这样的,完了以后产生了那么大的价值。所以我看了这家企业做的真的是蛮感动的,因为做这件事情以后你看看就是那么一个货车这个东西,已经变成一家数据公司了。为什么变成一个数据公司?他每天运费,大概,假如运费是50亿,完了因为有司机的信息,有了车的信息,完了他们长年累月在他身边跑,他就有这个司机的信誉。他自己也有诚信,这个非常像当时支付宝一样,就是今天一个司机在一个地方拉不到货,他会答应你,我把钱赔给你。完了以后看你看沉淀什么数据啊,他今天为这些司机上边拉的货做保险,因为他知道他拉什么,拉到哪里去,那么大概几个星期以前,克强总理在贵州的时候,我忘了那家银行叫什么银行了。就第一次开始做小额贷款,第一笔贷款就是颁给货车帮的司机的。完了这些司机就可以拿这个钱,贷款钱去进货。

所以我想讲就是说,想讲的意思就是说,因为互联网的出现是的有多少可能性,大家多一些以前可能根本做不了的东西,这是我要讲的第一件事情。

第二个事情,第二个例子我想讲就是说为什么互联网这个数据出来,被云计算出来会改变很多东西呢?那么我想讲的一个例子是说一个很小的公司,可以做非常非常大家不可想象的事情,大家都听说过12306对吧?那么大一个国家,那么大一个部委结果卖几张票没卖好是吧。但是大家肯定没有听说过这个事情,有家的企业叫12308,一听比较山寨,确实有点山寨。但是我们得敬佩这些人,12308是一个,这个公司也就不到50个人,它想要卖什么,它想卖全中国的汽车票,长途汽车票,大家知道在中国有一个人坐火车,卖出一张火车票,就要卖出10张长途汽车票。坐长途车这些人是极其没有尊严的,极其没有尊严,就是说去车站买,基本上大家可以想象没有尊严的。所以就是这么一家民营企业,它今天只有五六十个人,它想做就是卖全国的汽车票,那么今天它还没有做到这个规模,但是它今天在他的平台上已经可以查询全国300多快400个城市的车票的情况,能够卖六七十个城市的汽车票。他们的目标就是在下面一年真的能够卖三四百个城市的汽车票,就是这么一家,就是这么一家民营企业,所以大家想想看,这么五六十个人过去都是在做一个国家部委的事情,这是什么带来的?这是互联网带来的?云计算带来的。但最后大家想想看,一定是这个会变成一家数据公司,它可能比中国任何一个部门都知道春运这些人到哪里去,所以这是我讲的,非常有意思的一件事情,就是12308的这个例子。

那么最后要讲的例子,大家熟悉的这个例子,就是从数据从互联网的角度谈一谈这个余额宝,但是前面也讲到了,当然余额宝作为一个金融类产品我也不好评论,也不是专家,但是纯粹从数据跟互联网跟云计算的角度看这件事情,大家,我要讲的一件事情,如果在中国今天没有互联网,没有云计算,一定不会有余额宝,但是并不是说有了云计算就会有余额宝,这是两个不同的命题对吧。所以我想这个东西是中国创新的动力。所以余额宝大家可能都知道原来是天弘基金的,那么我知道这是在做余额宝以前,它是中国倒数排名第一的公司。那么只有倒数排名第一的才会想着变一下,这个也是历史的规律吧。完了以后当时他们上余额宝以后,突然三个多月,大家也知道中国基金产品十几年所有的公司加起来也就是五六千万,五千多万用户,所以一家公司三个月就有五百万的用户了。其实大家知道基本上对很多公司在这个时候就是灾难,为什么是灾难呢?就是它后台事务搞,所以当时天弘基金就做了个评估,怎么升级它的后台,我估计现在证监会下的这些公司都是这样的后台是吧。他们也是用传统的IBM、ORICAL的东西,完了他们评估一下,因为自身的业务发展,要升级他的后台,大概要花八千万的钱,大家知道天弘基金这辈子都没有见过这么多钱。但是很多大的证监会,大的企业会见过这么多钱。但是天弘基金没有挣到那么多钱,没有见过那么多钱,但是他们宁可说我去借钱。

但碰到第二个问题,什么问题呢?就是这个算一下,它算了一下发展,如果按互联网的速度发展下去,或一年以后,还是要重新再来升级它的系统,完了他们讨论一下也认了,就是说我去借钱,我宁可再重新干。还有一个问题,就是这个大家知道的传统的用IT方法来做,不是在互联网,用云计算来做的。他们至少六个月八个月十二个月才能把系统从采购到位,这是他们的机会成本,它没有时间等这个东西,所以最后他们其实下了一个很困难的决定,真的是很困难的决定,就是把它搬到云上来了。那么花了快3个月的时间,到了云上了,那年的双11的时候在上面就完成了大概50多亿的结算,完了大概十个月以后就过了5000万个用户,那么你去年去看那个所谓那个互联网女王那个报道的话,我看了一下,天弘基金是这个全世界好像货币基金第三大的公司。

第四、OK。所以大家想想看,一家倒数第一名的公司,就是因为这样到这个地方,这个互联网跟云计算是一个基础,不能说是一个决定性的东西,但是一个基础,所以那个这是这个世界就带来了变化。那么后面是我自己YY的。我自己想想看。其实天弘基金是可以实际上也慢慢变成一家数据公司,我自己随便YY,这个我也不知道他们做过没有,你再想想看如果天弘基金说不定是中国所有的部门里面最知道普通老百姓月收入是多少的。它可能真的比任何人都知道,因为老百姓拿了钱就放到那里面去了,所以大概猜的到。所以我想,我想讲数据是沉淀下来的,不是搜集出来的,搜集下来的数据是没有价值的,这是我想表达的这个意思。所以我想这些例子是蛮好地来说明这个时代发生多大的变化。

那么最后我想再讲一个在我们上面真实发生的这个案例,来说一下,为什么互联网的这个云计算重要,才会有真正的大数据,是因为如果今天你不下水,你永远学不会游泳。所以今年你不去把你的很多的东西在互联网上做起来,在云上做起来,你永远得不到你想要的所谓的大数据。那么这个例子就是国家药监局的一个很好的例子。就是大家可能不是特别清楚,国家药监局在十几年前就做了一件非常了不起的事情,就是中国特殊的问题,真的要特殊的方法来解决。就是因为为了药品监管,全世界我们是唯一一个国家做一个东西叫药品监管网,所以今天你们到药店或医院配一个药,这个药上除了有传统的商品的条码以外,还有一个特殊的条码叫药品监管码,这个码,大家知道传统商品是每一类商品条码是一样的,就像你矿泉水,只要这个矿泉水是同一种品类的矿泉水,那每一瓶矿泉水上的条码是一样的,那个药品监管码是每一盒药上的码都是不一样的,就是每一盒药都是唯一的去追踪它的东西。

那么最早他们做这个系统的时候,就是典型的IT系统,就是管理。那么所以实际上是药厂到药监局来申请这个条码,它把这个条码运用到那个药的盒子上,完了呢,它再把这个条码对应是什么药的信息,送回到这个药监局,就做成一个简单的管理系统。但是后来发现做了这个事情以后,药监局的人也会想,这个东西是不是扩大它的功能呢,所以它就在想说当这盒药除了厂里,出厂以后,是不是到了批发商手里,我可以知道这盒药在哪个批发商手里登记,所以它把管理系统往前扩充了一下。那么大家知道条件扩充下去了以后,就一路下去,自然会从批发商会想到零售店,这个药到了零售店的时候是不是还可以知道一下。那么大家想想看,中国的药厂大概是三四千家药厂,批发商可能四五万家,到零售店就是三五十万家,那么规模就是十倍十倍这样上去的。

真正的我知道这些事情的时候是因为卫生部跟药监局开了个会说,这盒药到了医院我也希望知道,大家知道全国这个社区医院在内,大概有九十几万家,实际上是什么,实际上就跟12306一样,这个药到了哪个消费者手里也是可以知道的。所以那个时候它的系统出问题了,那么当时跟他讲说,我当时也不太懂他们的这种业务,只是说你真要解决这个IT的问题话,是要用(00:24:59)思想来做的,所以就请他们上了云,所以他们花了两个多月就把这个线算是连上了,实际上解决了他们的IT的问题。

但是他们一旦上云以后,就会发现它可以做的事情远远超出到云上数据在里面起的作用。他们想做的第一件事情是什么?就是解决假药的问题,大家知道这个假药对老百姓的伤害是蛮大的。所以它后来在石家庄做了试点,这个当你到零售店去买药的时候,他要去注销这个监管码,就那个码。那这个码不被注销的话,你这个药是卖不出去的。那么他们在石家庄做的试点是蛮刺激的,我就不太好意思说这个数字,因为我在别的场合说这个数字被人批评了。但是这个假药是下来了,我是这么说。而且越是在看起来很大的商场里面一角,一个小药店买的假药就越多。这是一个事。  

完了他做了这件事情以后,又碰到另外一件事情,就人保还是社保,社保是吧?完了以后就是我才知道中国还有个东西叫骗保,就是你到药店去买药,开了张60块钱的发票,结果去到基本医疗保险去报销掉,但是你结果买的不是药,买的是洗发水啊,电饭煲这类的东西。所以他们后来又在石家庄做了个试点就是说你要报销的时候是要注销掉这个监管码,就这么个简单的事情他们发现在那个地方,这个骗保的金额比假药的金额还要高。所以大家想想看,这个国家的这个用钱的这个效率多么低你知道吧,所以现在有个数据是可以讲,他们就在石家庄做了一个试点,而他1200多种基本医药保险的药,他只拿出12种来作为这个试点,这12种药在那个地方一个月大概可以省下100万的钱。所以大家想想是多大一笔财富,但是靠数据来解决这个事情。  

所以我想讲的这个例子就希望说在互联网到云计算以后,你一定会想出你应有的创新在哪里,而不是靠坐在这里想才可以做这个事情。那么这是我想表达的三个东西,我再总结一下,互联网是个基础设施,别人都在互联网上做事情,你不在互联网上面做,你一定会有问题的。第二个,只要在互联网上数据是一定会沉淀下来的,而不是用传统的方法你去辛辛苦苦搜集干什么,沉淀下来的数据可以来回答这些今天想都没有想到的问题。那么这个问题,这个数据是怎么来回答问题呢?是靠大量的计算便宜的计算,也就是大家讲的云计算来把数据发挥出价值。

数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询