大数据时代
当今世界是一个数据的海洋。在人类历史上,从来没有出现过如此迅猛的信息爆炸,人类拥有的信息量以指数函数的速度急剧增加,信息倍增的时间周期越来越短,信息洪流以前所未有的力量冲击着整个世界、改变着人类社会的结构和形态。
所以有人说:
“我们在数据的海洋中遨游,而水中满是鲨鱼,并且海平面还在快速上升。(We swim in a sea of data… with the sharks… and the sea level is rising rapidly.)”
这话绝不是夸张。每一天、每一分、每一秒,各类系统、各种应用产生源源不断的数据。每一秒,全球发送电子邮件300万封;每一分,YouTube上传20小时视频信息;每一天,微博新贴1亿条、淘宝交易2000万笔,而Google处理数据近30PB……
即使是最普通的家庭,每天消费的数据量也多达400MB。大数据不仅是滚滚而来的时代热潮,也早已无处不在、如影随行;大数据并不只是喧嚣于数据中心、云及新闻中,也早已侵入我们的家庭、我们的日常生活之中。
大数据(Big Data)迄今并无严密的公认定义,通常用4V特征来描述它。既云“大数据”,首当其中就是Volume(海量),系指数据量太大,难以用传统数据处理手段和工具进行处理。从2005年起,全球每天产生的数据量多达2.5 QB、每年数据总量增加300倍,预计至2020年,预计全球数据总量将达到90 ZB。
一方面是数据量大,另一方面却要求Velocity(高速)。极快的增长速度、极高的处理速度,这是大数据的第二个特征。纽约股票交易所每交易时段处理交易信息量高达1 TB,而轿车上用于监控燃油和胎压等信息的传感器接近100个,它们需要得到实时快速处理。2016年全球网络连接数量预计将达到189亿,平均每人2.5个连接。
或许Variety(多样)才是大数据最重要的特征。在YouTube上,视频信息每月被观看40亿小时;2014年,全球可穿戴无线保健监控装置达到4.2亿台。在这个时代,大量人对人数据(网民数据,虚拟社区,社交网络,网络日志等等)、人对机器数据(归档数据,医疗设备,数字电视,电子商务,智能卡,银行卡,计算机,移动设备等等)、机器对机器数据(传感器,GPS设备,条码扫描,安全监控,科学研究等等),使大数据的品类多到不胜枚举。
不幸的是,大数据并不一定像某些人鼓吹的那样神奇,它是Veracity(欠真)的。统计表明,数据质量不佳给美国经济每年造成损失高达3.1万亿美元,而三分之一的业务领导不信任他们用于决策的数据信息,27%的被访者不确定其数据有多少是不准确的。
好消息是,有一部分人认为大数据的第四个特征是Value(价值)。因为统计也表明,大数据已经创造了很高的价值,促进了生产率提升和销售增长。只是人们也发现,大数据的价值密度是很低的,例如连续视频信息中价值数据可能仅1s。
DIKW体系
忽悠者云:得数据者得天下。又说,大数据时代,数据是企业资产。但究其实,数据本身是没有价值的,说得极致点,大数据就是大垃圾。
数据行业有句俚语,叫做“垃圾进、垃圾出”(Garbage in, garbage out)。它本意是用来讽刺数据仓库的,不过对人类同样也是“垃圾进、垃圾出”。
为什么?因为数据本身,是根本不可能有价值的。数据是什么?开关打开是1、开关关闭是0,高电平是1、低电平是0,或者用磁介质、光电质的不同状态表示1和0——总之是一堆二进制数字串。它没有任何价值。
大数据价值的源泉,是将数据转化为智慧。数据-信息-知识-智慧的演进关系,称为DIKW体系(DIKW Architecture)。如果用天气预报来说明,那么:数据是百页箱采集的数字、卫星云图、环境监测的数字,信息是明天的天气、温度、湿度,知识是穿衣指数、晨练指数、洗车指数,而智慧是穿衣混搭方案、减肥健身方案、规避违章方案。
例如,如果给出一个与其他事物毫无联系的数字37.5,它是没有任何价值的。但是如果给出数据之间的联系,数据就变得有意义了,像这样:
姓名:陈书悦
性别:女
年龄:12 岁
体重:1200 kg
体温:37.5 ℃
从37.5到37.5℃,就是从数据变成信息。该信息显示,陈书悦身体欠佳,需要看医生。
信息必须真实可信才有价值。陈书悦可能不是小朋友,真实年龄不止12岁;只要陈书悦是人类,她的体重不可能达到1200kg。在数据到信息的处理过程中,这些错误应该予以清洗。
信息虽有价值,但价值不高(所以现实环境中人们故意制造信息不对称,通过屏蔽来人为提高价值),相比之下知识更有价值。比如,成年人看到今天气温25℃的预报,就知道天气很舒适,而“穿衣指数”这样的知识则可以指导小朋友、外来客的着装。洗车指数、晨练指数也可以起到类似的作用。
智慧当然比知识更高明。穿衣指数只能指导基本的冷暖,而穿衣怎样混搭才漂亮,却不是每一个人都Hold得住的。同样地,体重和健康对于一些人根本不是问题,对于更多人减肥却是老大难问题。
因此,如果说数据根本没有价值,信息有些价值、知识很有价值的话,那么智慧的价值则高得多,甚至无法衡量。有一个小故事,可以生动地说明智慧的价值:某公司进口设备发生故障,工程师检查了好久找不到原因,只好请原厂商的德国专家前来诊断。德国专家在设备跟前听来听去,最后用粉笔作了一个记号,指示从此处打开设备,将线圈减少16匝,故障即可排除。工程师照办之后,设备果然恢复正常。德国专家因此收费100万美元。或有不服,德国专家笑道:粉笔记号收费1美元,知道在哪里作记号收费99.99万美元。
由此可见,DIKW体系不是一个严密的体系,数据与信息、知识及智慧之间,绝不是简单的直接映射或衍生递进关系。所以DIKW体系也被称为“信息金字塔”,数据在塔底、智慧在塔尖,形象地告诉人们,通过挖掘大量的数据“金矿”,才能得到一丁丁点儿智慧“金子”。大数据4V特征之价值(Value)特征,表现之一是价值密度低,道理就在这里:虽然数据是资产、是金矿,但能产生知识和智慧价值的数据却是很少的。这就是数据金矿、数据资产的真相:数据只是数据价值的“原石”,数据是否有价值,并不由数据本身决定的。
企业智慧能力
研究表明,群体智慧通常弱于个体智慧,即使群体完全由高智商个体构成。这种现象称之为“羊群效应”或“百猴效应”。也就是说,在传统知识和信息机制下,企业的沟通和活动都呈现出低效率、两极化、单一性的特征,当企业规模增大时,个体的自主表达存在越来越严重的障碍,个体智慧产生规模效益越来越困难,从而使企业智慧能力表现出越来越明显的下降趋势。
但研究又发现,群体智慧在特定环境下表现得非常突出,甚至超越群体中最智慧的个体,即使群体中的多数个体并不见多识广或富有理性,群体仍能做出智慧的决策。因此,若能以正确的方式组织起个体判断力,群体智慧便能表现得十分完美。
如果群体是一家企业,人们发现:当人们满怀激情创立企业,哪怕像爱因斯坦一样聪明,企业的群体智慧却未必随新着个体智慧而增长,企业规模越大则体量越大,盲人摸象式经营决策广泛存在。因此,大象能够跳舞可能只是梦幻,没有企业智慧便没有核心竞争力。
企业核心能力是企业内部一系列互补的技能和知识的组合,它具有使关键业务达到业界一流水平的能力,是能够提供企业竞争优势的知识体系,而企业智慧是企业能够迅速、灵活、正确地理解和解决问题的能力,因此企业智慧能力可以定义为:通过全面整合各类大数据源、准确把握企业经营信息,以业务洞察为导向、以智慧分析驱动企业决策,从而创新和优化商业模式、提升核心能力的综合能力。
领诚科技相信,智慧能力是大数据时代的企业核心竞争力。通过基于企业数据的动态分析,企业智慧能力不仅能够帮助企业描述现状、分析缘由、预测未来,更能有助于实时掌握业务动态、以数据分析为基础主动推进业务开展。
领诚科技致力于全方位帮助企业提升各种企业智慧能力。按照领诚科技的定义,智慧能力包括五大类型。
通过信息系统集成及企业数据整合,领诚科技为企业奠定智慧能力的技术创新基石。基于丰富的行业经验,领诚科技针对行业特征总结出智慧能力建设的关键与重点,提供清晰的数据模型与信息架构,从业务和技术角度定义个体元素及其相互关联关系,形成全企业统一视图。
企业数据唯有成为可信信息、并能转换为知识和智慧,才能为企业创造价值。因此,领诚科技基于长久积淀的创新文化,以大数据分析(Big Data Analytics)为核心,依照数据-信息-知识-智慧体系(DIKW)体系架构,帮助企业提升分析智慧。
DIKW生态链
大数据行业观察家The Big Data Landscape把大数据厂商大体划分为基础设施与应用两大类,基础设施类不管是产品模式还是云平台模式,都是结构化和非结构化数据处理平台,而应用类则可以细分为:商业智能、数据分析和数据可视化的产品商;操作智能及广告与媒体应用的产品或平台商;数据服务平台商;面向消费者的应用或垂直应用平台商。
从DIKW体系视角,则“大数据厂商”可以重新归类为数据源、数据存储与处理平台、数据整合与分析工具、信息展现与数据应用等。可见,即使在今天的大数据语境下,IT平台、产品及服务也大都处于DIKW体系的数据和信息环节,知识和智慧对于信息科技来说,基本仍处于不可知、无法处理的“蛮荒”之中。
这是因为,以目前的信息科技能力,无论智慧、知识或是信息,都必须表达为数据,甚至必须是结构化数据。“大数据”概念的提出,初衷恰恰是因为现有系统和技术不足以处理体量越来越大、数据类型越来越复杂的情况,而当前常见的很多所谓大数据成果,基本都是基于统计分析,而统计分析必须基于结构化数据。
大数据的时代背景是信息爆炸,其基本特征是:数据存储飞速膨胀;信息泛滥急剧攀升;无效信息铺天盖地;信息超载无所不在;信息疾患草木皆兵。领诚科技认为,个性化、智能化是突破信息爆炸、解决大数据困境的根本出路,其核心观点是:
未经处理的裸数据是无用的垃圾
信息价值唯有通过与人对接产生
领域知识是大数据价值挖掘基石
人工智能源于大数据的知识沉淀
人类智慧永远是不可能被替代的
因此,领诚科技倡导建立DIKW生态链,通过大数据行业生态的全方位协作,打通从大数据到个性化信息、领域知识、人工智能及人类智慧的大数据全生命周期: