【嘉宾观点】徐宗本 :大数据,大智慧--大数据分析与处理所面临的挑战与机遇
2015年6月19日,徐总本院士出席澳门新葡平台网址8883网站第十期黄埔大讲堂,带来“大数据,大智慧——大数据分析与处理所面临的挑战与机遇”的主题演讲。
一、大数据的概念
什么是数据?用科学的语言来说就是数据就是指以编码形式存在的信息载体。那么,什么叫做大数据?对公众而言,大数据泛指现在信息时代,信息极为丰富,当我们选择的时候需要进行方方面面的处理。而作为技术来说,我们讲大数据通常是指一项技术,是一种能够从非常纷杂的、非常海量的、各种各样的数据载体中获取知识,找出背后的规律的一种高新技术。这叫大数据技术。对全社会来说,也指一种文化——拍脑袋不行,要靠数据说话。对于科学家来说,大数据其实是过去的统计分析技术,过去的数据挖掘技术的延伸和发展。
二、大数据的作用
大数据到底能干什么?我认为有四个方面:
第一,提供社会科学的方法论。包括中文、历史、社会学以及管理科学在内的文科,没有一个定量的方法论,大数据最大的贡献在我看来就是为管理学、社会学、历史学等等研究提供一个方法论。管理科学过去靠两件事:一个是基于理论,理论本身有很多局限性,另外一个是基于案例,但是教学案例和现实情况未必符合。大数据把形形色色的记录关联起来,这就是科学决策。
第二,为科学研究提供一个新范式。一个世纪之前大家都在做理论,所以出了一批名人,后来发现太局限了,所以后来就有计算。目前大数据发展到了什么程度?很多IT行业的人都跟你讲我就用大数据技术,说实在话,没有几样用大数据,但是有一件有,就是查询,假定说把全国名医怎么看病的数据记载在一起,来一个新的病例我一看的话,就能查询到。
第三,形成高新科技的新领域。如果没有大数据这个概念,我们过去所说的互联网、云计算、电商等等都没有落脚的。云计算就是翻版的计算机,过去我们用计算机是自己买,单位买,现在大家都别买计算机了,将来一插我就可以用了,这就是云计算。我们现在“互联网+”仅仅是说结合我自己的领域把数据尽可能集中,尽可能搜集。接下来需要在这个中间分析,哪些是有价值的数据。这些东西都依赖于怎样根据这些数据解释,这就是大数据。
第四,形成社会进步的新引擎。换句话说,利用大数据可以改变我们很多很多的思维方式。我们的电商、微博微信完全改变了人的生活方式,这都是大数据的作用。
三、如何运用大数据
到底大数据怎么用?这是我希望强调的,怎么用大数据?
第一,目标确定与数据需求分析。
如果想用大数据,第一事情最重要,目标确定,就是你想干什么。举一个例子,政府发个文件之后大家紧紧跟上,河南省就跟。但问题是你要想想你干什么,河南最大的特点就是农业,而且河南面临最大的问题就是食品安全,那我们需要什么样的数据解决食品安全问题?粮食安全其实要解决土地安全、种植安全,你往下推就知道,要解决物流过程、粮食生产过程、土地资源等等,要做食品安全,郑州应该成立农业数据科学,土地、种植、物流、三农等等一个完整的产业链。
第二,定向的数据收集与数据预处理。
第三,数据存储与管理方式选择。当你一个企业很大,你必然就会遇到这个问题,把过去20年的数据拿出来看看,这些数据怎么办?是自己建一个计算机中心存起来,还是说租人家的。
第四,选择平台与方法实施数据分析与挖掘。
第五,领域相关的数据分析结果解释。
第六,应用、决策、反馈、修正。
总结起来就是,明确目标是前提、拥有数据是基础、计算平台是支撑、分析技术是核心、产生效益是根本。数据是基础,平台是支撑,分析是核心,赚钱是王道。
四、如何研究大数据
总体来说,从数据到价值形成,各种各样的数据收集在一起要能获得利润或者做决策,这样一个过程就叫做大数据产业链,大体上说,包括这四个阶段。
第一个阶段是数据获取与数据管理。基本问题是数据能不能相互共享,能不能积攒出资产,怎么定价,在共享的过程中怎样去保护隐私,怎样保护安全,包括生态整个大环境之中,咱们相互行业之间怎么形成竞争,这就是生态治理,这些都是管理学科要解决的基本问题。更深层次的是要解决基于数据的决策,这是更大的问题。
第二个阶段是数据存储与处理。支持大数据高效获取、存储、调用与处理的信息技术,他们主要是解决计算机架构,计算机的编程语言。
第三个阶段是数据分析与理解。统计学领域的人现在最活跃的人是在做大数据处理与分析,包括大数据表示、挖掘与分析、建模与计算、评估与优化、大数据算法等。
第四个阶段是结合领域的大数据应用。这部分要解决目标定位、数据准备、先验建模、评估准则等。
五、研究的问题
分析与处理关注哪些科学问题?到底哪些问题是目前研究的热点?应该说这7个问题大家很关心。
第一,数据表示。选择一种数学结构使数据以该结构形式去存储、分析与处理。这个问题非常难,我们过去分得很细,你想图像处理的,我做文本分析的,我做视频的,但是大数据要你把这些东西放在一起来处理。
第二,统计学基础。统计学是做数据分析的微积分,统计学最基本的事情是讲两个量之间关联不关联,我们都知道相关的概念是指线性相关,但是大数据分析需要非线性相关。
第三,计算复杂性。过去计算机能够解决问题依赖于一个基本的理论,你给的理论计算机能不能解决,这个概念大数据来了之后彻底颠覆掉了,因为我们现在的数据是数据流,一个数据流难或容易怎么定义,这就是现在大家关注的热点。
第四,计算模式。比如说健康数据,这个实验室做的和那个实验室做的怎么拼在一起,这就是计算模型。
第五,算法设计问题。这两年出现了很多大数据算法,但是不见得都可行。大数据处理的机制是X1、X2、X3……Xn,D1、Dk、Dm,每一个都得到补机,然后看看是不是能反映整体的。这不是简单的问题,比如说我们想求这么多数据的均值,平均值是多少,这个数据大到什么程度,我根本就没办法拿一台机算好。
第六,非结构化信息处理。结构化数据是指这个数据类型能够用有限的规则去表示它,表格、程序,人能够描述清楚的都是结构化。什么叫非结构化?非结构化不能用有限规则表述的数据,文本,你能用规则描述吗?描述不了。所以,文本、图像、视频,大家看到的东西其实都是非结构化的。结构化和非结构化有什么差别呢?非结构化有一个基本的特征,对于这个事情的分析是仁者见仁,智者见智。看一幅画我看了,你看了,我们两个的理解能一样吗。可见仁者见仁,智者见智,这叫非结构化,难就难在这里。
第七,可视分析问题。这么复杂、这么高维的数据处理。学数学的人有几何想象,比如说用持平来表示的结构,这就是可视化了。
六、关于若干大数据科学问题的探索
什么叫稀疏性信息处理?表面上有很多很多要素决定,但只与少数问题相关就叫稀疏性信息处理,我最近提出了1/2理论就是做这个事情。我给大家讲一个实际的例子,我们过去买照相机要买高像素的,现在的观念变了,我既要有一个清晰的头像,但是我不想买很大像素的,就是用稀疏性,我获取的很少,能够记录清楚。
非结构数据的毛病就是这个数据是仁者见仁,智者见智。(PPT)大家看看这个图,数据分析中人最基本的是做两件事,把相同的东西归成一类,把不相同的分开,第一个叫人以群分,第二个是聚类。如果你今天换了发型,电脑认不出来。难处就在这,但是人很容易看出是四个还是五个。我们把本质找一找,我就干这件事。