从辽沈战役看小数据的运用

来源:零壹财经 作者:顾凌云 日期:2014年05月04日    【字体:

从辽沈战役看小数据的运用
 
 (作者是Turbo Financial Group联合创始人、首席风险官。联系邮箱:gu.01caijing@gmail.com。)

  何为大数据,让我们抛开那些空洞说教,说了也没几个人懂的什么4个V的表述方法,简简单单来看看它的历史发展和沿革,大家应该就能轻而易举的自己总结,什么才是大数据。
 
  当然,要看星星之火怎样燎原,那么就在谈燎原的大数据之前,让我们先看看星星之火的小数据时代,当年那些达人是怎么运筹帷幄的。
 
  今天例子的主角,是中共开国元勋,黄埔四期毕业生,国共内战时解放军第四野战军,又称东北野战军的司令员:林彪。1948年,当辽沈战役正打的如火如荼之际,白天忙碌拼杀了一天,思想又处于高度紧张的大部分四野指战员都休息了,唯独林彪指挥部的参谋是没有这么好运气的。因为林彪每天都会要他的参谋把当天大大小小战役,所有的数字指标通通都读一遍。参谋读的昏天黑地,唯独他一个人倒坐在椅子上,靠在椅子背上,一丝不苟的听着。敌军被缴获的长枪有多少,短枪有多少,击毁吉普车几辆,俘虏人数等等,不一而足。
 
  某天,正当参谋准备继续往下读他的流水账的时候,林彪突然叫停,让参谋把他刚刚读过的那批数字再读一遍。等林彪把数字再听一遍之后,他异常兴奋的站了起来。让在那个地点周围的所有解放军放下手中所有作战任务,向那个地点以急行军方式运动靠近。参谋们都听的莫名其妙,只有林彪非常自信的分析,刚才的数据中,明显缴获敌军的短枪数量多于长枪,击毁的吉普车数量也多于寻常,俘虏的敌军高级军衔者明显增多,更糟糕的是,和同样数量的对手过招,此次己方伤亡人数明显增多,这一切的一切都表明,刚才遭遇的是战斗力极强,临危不乱的敌方指挥部。所以一定要在敌人彻底突围之前再次将他们包围!
 
  林彪的判断是正确的,当国军五大王牌之一,在中日战场上屡建奇功,杀敌无数的原新六军军长,现整编第22师师长,黄埔六期毕业生廖耀湘正在庆幸自己逃出生天之际,突然发现,已经放弃追击的共军,又漫山遍野的追杀上来。八年抗战无役不与,南京保卫战杀到只剩一兵一卒,昆仑关战役面对日本名将中村正雄机械化部队火器之利,率先杀上城楼的湖南人廖耀湘就这么成了林彪和他部将韩先楚的俘虏。
 
  后来在文革中,性格耿直的廖耀湘在批斗大会上不堪受辱,在和红卫兵的争论中心脏病突发辞世。可惜一代抗日名将,杀敌无数,最后却死在自己人的手上。这是后话,也和大数据无关,暂时按下不表。不过如果说廖耀湘一半是栽在数据分析上面的,应该不算太过。
 
  当然,很多人,包括韩先楚部将的后人,都否认这段历史八卦。但是,从这段故事中,我们姑且来提取一下它机器学习的部分精髓。首先要提到的就是特征提取,无论是人还是机器,在做分类和聚类的时候,如果没有特征提取,恐怕寸步难行。比方为什么人和老虎不一样,特征之一是人直立行走,老虎不是。那人和猿猴呢,不是都直立行走了吗?回答因为人会使用工具。人和机器都是通过不断提取和深化这些特征来做出最后的分类。林彪也不例外,在他眼里,这里的特征分别是长短枪数量,被击毁吉普车数量,俘虏人数,俘虏军官人数,己方伤亡人数等等。在早期的小数据时代,这是非常通用的方法。
 
  再看在有了特征之后该怎么办?最简单的办法就是对每个特征取平均,如果有5个特征,那每个特征的权重就是20%。也就是说,击毁一辆吉普车和俘虏一名敌军,所占权重是一样的。是不是觉得有问题了?击毁一辆吉普车难度要大很多,怎么权重能一样呢?不急,让我随后慢慢解释。
 
  在有了特征,有了平均权重之后,第三个需要确定的就是目标变量,而在上面这个例子中,目标变量就是攻击目标是不是敌方指挥部。如果是,变量值定义为1,如果不是,定义为0。这样一来,当每一场战斗结束,这些特征变量的数字被报上来以后,在林彪的脑海里面简单一比较,就能算得出来这场战斗的敌人更可能是指挥部还是只是一般部队。
 
  当然,人脑比机器要复杂的多,现实中,林彪也不可能真的还在脑海里面把最终计算的概率精确到小数点之后第四位。以上不过是一个简单的例子而已。
 
  随着算法的不断改善,慢慢很多疑问就提了出来,为什么每个变量的权重都是一样的?如果不一样该怎么处理?这就有了加权平均。根据击毁吉普车难度更大的事实,吉普车这个特征变量就能获得更大的权重。有了加权平均还不够,为什么所有的变量都是线性的,非线性组合哪里去了?有了非线性,更多了疑问又提了出来,怎样优化产生非线性组合,可以用核函数吗?
 
  就这样,不积跬步,无以致千里。不积小流,无以成江河。从小数据到大数据的研究方法,就在实践和疑问中一步一个脚印的在向前不断发展。
 
  同样具有指导意义的是上世纪70、80年代,那时在纽约证交所的优秀交易员,在初来乍到面试的时候,都会被带进一个显示着大量实时交易数据的房间,在里面和你随便聊一会,再让面试者对着这些数据看一会。等出了这个房间,能记住房间里面大量变动数据的人往往胜出,会拿到这份令人羡慕的现场交易员的职位。
 
  这里的逻辑很简单,股票交易的重要一环就是股价和股价的衍生产品。对数字敏感者胜。当然,现在面对日新月异,计算能力和速度每天都在增加的计算机,这种面试自然就落伍了。
 
  但从上面两个例子,我们可以看到,小数据时代有几个主要的特征。1)受数据采集条件限制,没法采集大数据。2)所有数据都是在容量有限的情况下一次性处理。3)在处理过程中,受处理能力所限,一般只看采样,不看全部。
 
  那么,大数据是怎样的呢?让我们下文论述。

标签: 大数据
 
0
零壹投资咨询(北京)有限公司 版权所有 未经许可不得转载