大数据——大价值、大机遇、大变革

每周大家谈字数 9547阅读模式

近几年,大数据这个词突然变得很火,不仅纳入阿里巴巴、谷歌等互联网公司的战略规划中,同时也在我国国务院和其他国家的政府报告中多次提及,刚结束的十八届五中全会也提出要实施国家大数据战略。大数据无疑成为当今互联网世界中的新宠儿。那么大数据到底为什么这么火呢?

大数据——大价值、大机遇、大变革

一、大数据的概念与特征

那么大数据究竟是什么呢? “数据”又是什么意思?在日常的概念当中,我们认为数据就是数字,这点没错,但是数据也可以是文字、图像或者声音。

究竟什么是大数据?目前还没有统一的定义。根据维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。大数据,或称巨量数据、海量数据;是由数量巨大、结构复杂、类型众多数据构成的数据集合。

随着智能手机以及“可佩带”计算设备的出现,我们的行为、位置,甚至身体生理数据等每一点变化都成为了可被记录和分析的数据。比如,同一个用户,大数据会关联起他的网上浏览记录、手机通讯关系、电子商务网站购物记录、生理数据、朋友圈等。另外,同一个地点,大数据可以关联起你手机的移动轨迹,车载GPS的移动数据,以及物流的递送数据,智慧城市的建筑信息等等。

从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。

大数据从何而来?

社交网络、微博、视频网站、电子商务网站; 物联网、车联网、移动设备、终端中的商品、个人位置以及各种各样的传感器,无一不是数据来源或者承载的方式。• 联通、移动、电信等通信和互联网运营商, 天文望远镜拍摄的图像、视频数据、气象学里面的卫星云图数据等。全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。

大数据有多大?

数据计量的基本单位是Byte,按顺序给出所有单位:bit(比特)、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB,它们按照进率1024(2的十次方)来计算,比如1ZB=1024EB。

《红楼梦》含标点87万字(不含标点853509字)

每个汉字占两个字节:1汉字=16bit = 2*8位=2bytes

1GB 约等于671部红楼梦

1TB 约等于631,903 部

1PB 约等于647,068,911部

伴随着互联网的发展,全球数据量出现爆炸性的增长。1998年人均流量是1M/月,2000年人均流量10M/月,2003年人均100M/月,2008年人均流量是1G/月,2014年人均流量将是10G/月。全世界IP流达到1EB(1EB=1024PB)所需要的时间:2001年全球网民下载的流量合起来才1EB,2004年一个月就到这个数字,2007年一周就到这个数,2013年一天就到这个量。

IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。

我国网民数居世界之首,每天产生的数据量也位于世界前列。淘宝网站每天有超过数千万笔交易,单日数据产生量超过50TB(1TB等于1000GB),存储量40PB(1PB等于1000TB)。百度公司目前数据总量接近1000PB,存储网页数量接近1万亿页,每天大约要处理60亿次搜索请求,几十PB数据。一个8Mbps(兆比特每秒)的摄像头一小时能产生3.6GB数据,一个城市若安装几十万个交通和安防摄像头,每月产生的数据量将达几十PB。医院也是数据产生集中的地方。现在,一个病人的CT影像数据量达几十GB,而全国每年门诊人数以数十亿计,并且他们的信息需要长时间保存。

大数据具有4V特点。

行业内通常用4个V(即Volume、Variety、Velocity、Value)来概括大数据的特征, 1、Volume(大量);2、Variety(多样);3、Velocity(高速);4、Value(价值)。

第一, 数据容量大(Volume)。从TB级别,跃升到PB、EB乃至ZB级别;

第二,商业价值高(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。

第三,数据类型繁多(Variety)。相对于以往便于存储的以文本为主的结构化数据,大数据中非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。

第四, 处理速度快(Velocity)。1秒定律。数据增长速度特别快,处理速度也要求更快。一般要在秒级时间范围内给出分析结果,时间太长就失去价值了。这个速度要求是大数据处理技术和传统的数据挖掘技术最大的区别。

最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”

2012年3月份美国奥巴马政府发布了“大数据研究和发展倡议”,投资2亿以上美元,正式启动“大数据发展计划”。计划在科学研究、环境、生物医学等领域利用大数据技术进行突破。奥巴马政府的这一计划被视为美国政府继信息高速公路( Information Highway)计划之后在信息科学领域的又一重大举措。2012年5月,联合国发表名为《大数据促发展:挑战与机遇》的政务白皮书中,指出大数据对于联合国和各国政府来说是一个历史性的机遇,还探讨了如何利用包括社交网络在内大数据资源造福人类。

我国大数据的国家战略是怎样的呢? 2012年,我们出台了《“十二五”国家政务信息化工程建设规划》。2014年,中央网络安全和信息化领导小组成立,习近平总书记亲自当组长,强调网络安全,互联网安全。大数据和互联网是密切联系的,大数据就是数据变得在线了,那是离不开网络的。李彦宏作为创新企业代表向政治局讲解信息技术领域的前沿课题——大数据的发展情况。2015年的《政府工作报告》强调,要制定“互联网+”行动计划,推动移动互联网、云计算、大数据、物联网等与现代制造业结合,促进电子商务、工业互联网和互联网金融健康发展。8月31日,经李克强总理签批,国务院印发《促进大数据发展行动纲要》其中提到,要全面推进大数据发展和应用,加快政府数据开放共享,深化大数据在各行业创新应用,通过建设数据强国,提升政府治理能力,推动经济转型升级。《纲要》还提出,要在2017年底前形成跨部门数据资源共享共用格局,在2018年底前建成国家政府数据统一开放平台。《纲要》的发布意味着中国大数据发展迎来顶层设计,正式上升为国家战略。

二、大数据应用

大数据技术可运用到各行各业。麦肯锡公司2011年报告推测,如果把大数据用于美国的医疗保健,一年产生潜在价值3000亿美元,用于欧洲的公共管理可获得年度潜在价值2500亿欧元;服务提供商利用个人位置数据可获得潜在的收入000亿美元;利用大数据分析,零售商可增加运营利润60%,制造业设备装配成本会减少50%。在这个数据为王的时代,如何挖掘、利用数据显然已经成为了各个行业、企业竞争的焦点。

1. 大数据与商业

2012年年初的一天,一个父亲闯入他家附近的 Target超市向经理兴师问罪,因为超市将婴儿尿片和童车的优惠券寄送给了他17 岁的女儿,经理只能解释这是个误会。但一个月后,这位父亲打来电话道歉,因为他的女儿的确怀孕了。

塔吉特是如何比顾客的家属更清楚预产期的呢?这件事看起来非常不可思议,但背后却是有规律可循。这其中的玄妙就在于Target运行的大数据模型,能够通过对客户购买行为的分析将各种类型的顾客细分出来。实际上,Target用25种典型商品的消费数据构建了“怀孕预测指数”,这样可以较为精确地辨别出孕妇群体,并且早早地将孕婴童优惠广告寄给她们,毕竟这是含金量非常高的客户群。结果,Target的孕婴用品销售出现了爆炸性的增长。

Target超市和怀孕少女的故事被媒体称为“世界大数据的第一课”。大数据的核心应用是预测。通过用户行为分析实现精准营销是大数据的典型应用。

2.大数据与医疗 

传统的流感预报会滞后大约两周的时间,这种滞后往往会导致严重的后果。通过分析大量用户的搜索记录,比如“咳嗽”、“发烧”等特定词条,谷歌公司能准确预测美国冬季流感传播趋势。和官方机构相比,谷歌能提前一两周预测流感爆发,预测结果与官方数据的相关性高达97%。2009年,在甲型H1N1流感爆发的几周前,谷歌的工程师们公开发表了一篇论文,不仅预测流感即将爆发,并且其预测还精确到美国特定的地区和州。这让人们感到十分震惊。准确预测流感疫情,说起来并不复杂,谷歌一直致力于对用户检索数据的分析。用户求医问药等搜索数据可谓海量,把这些数据再拿来与美国疾控中心往年记录的实际流感病例信息相比对,就帮助谷歌作出了准确预测。

对个体而言,大数据可以为个人提供个性化的医疗服务。过去我们去看病,医生只能对我们的当下身体情况做出判断,而在大数据的帮助下,将来的诊疗可以对一个患者的累计历史数据进行分析,并结合遗传变异、对特定疾病的易感性和对特殊药物的反应等关系,实现个性化的医疗。还可以在患者发生疾病症状前,提供早期的检测和诊断。举例:乔布斯与癌症治疗。乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用。他得到的不是样本,而是包括整个基因的数据文档。医生按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。

大数据可以使医疗卫生体系会更加精密。医药数据、患者的用药数据,包括电子监管码的销售、医保数据,如果有一天能把这些全部打通,通过他们的平台,当输入某一个患者的身份证号,可以知道他得了什么疾病、最近用药情况、健康状况等,就可以把社会医疗资源合理分配,而不是任何一个病都要到大医院去排队。例如:9月17日,阿里云同深圳中瑞奇、杭州金卫健康宣布,三方将合作组建“云上安心”联盟。通过联合社区医院、三级综合医院、医疗硬件厂商、医疗健康APP、健康体检中心、医疗健康分析模型提供商,在患者知情并授权下,将散落各处的健康医疗数据进行汇聚打通,以期实现基于数据的精准医疗。

3.大数据与教育

在传统教育模式下,分数就是一切,一个班上几十个人,使用同样的教材,同一个老师上课,课后布置同样的作业。然而,学生是千差万别的,在这个模式下,不可能真正做到“因材施教”。

举例来说,一个学生考试得了88分,这个分数仅仅是一个数字,它能代表什么呢?88分背后是教育背景、努力程度、学习态度、智力水平等,把它们和88分联系在一起,这就成了“数据”。大数据因其数据来源的广度,有能力去关注每一个个体学生的微观表现——他在什么时候开始看书,在什么样的讲课方式下效果最好,在什么时候学习什么科目效果最好,在不同类型的题目上停留多久等等。这些数据对其他个体都没有意义,是高度个性化表现特征的体现。同时,这些数据的产生完全是过程性的:课堂的过程,作业的过程,师生或同学的互动过程……而最有价值的是,这些数据完全是在学生不自知的情况下被观察、收集的,只需要一定的观测技术与设备的辅助,而不影响学生任何的日常学习与生活,因此它的采集也非常的自然、真实。

在大数据的支持下,教育将呈现另外的特征:弹性学制、个性化辅导、社区和家庭学习、每个人的成功……大数据支撑下的教育,就是要根据每一个人的特点,解放每一个人本来就有的学习能力和天分。

4.大数据与政治

号称“世界上最民主国家”的美国有着这样的总统选举定律:谁花的钱越多,谁就会赢。但是,在2012年美国总统大选时,花销不到 3 亿美金的奥巴马却完胜花了近 4 亿美金的罗姆尼。此后,奥巴马竞选工作组发言人本·拉伯特(Ben LaBolt)一语道破天机:大数据挖掘是奥巴马团队能够击败罗姆尼的最根本优势!对于竞选团队来说,并不是要面对一个笼统的选民概念,而是要针对每一个选民,发掘他们最有可能被什么因素说服。这种个性化的推进方式使得奥巴马团队筹得的第一个一亿美金中,有98% 来自于小于 250 美金的小额捐款,而罗姆尼团队在筹得相同数额捐款的情况下,这一比例仅为 31%。

这也难怪奥巴马一上台,就将大数据定义为美国“未来的石油”,是美国综合国力的一部分,是与陆权、海权、空权同等重要的 “国家核心资产”。

政府部门在数据占有方面,无疑具有天然的优势。在国内,政府各个部门都握有构成社会基础的原始数据,比如,气象数据,金融数据,信用数据,电力数据,煤气数据,自来水数据,道路交通数据,客运数据,安全刑事案件数据,住房数据,海关数据,出入境数据,旅游数据,医疗数据,教育数据,环保数据等等。这些数据在每个政府部门里面看起来是单一的,静态的。但是,如果政府可以将这些数据关联起来,并对这些数据进行有效的关联分析和统一管理,这些数据必定将获得新生,其价值是无法估量的。大数据的发展,将极大地改变政府的管理模式,有利于节约政府投资、加强市场监管能力、提高政府决策能力、提升公共服务能力,实现区域化管理。2013年10月,济南电子政务数据交换平台正式启用。该平台基于云计算理念,成功将工商、国税、质检、公安、社保等20多个部门数据共享。国税局与地税局通过数据比对,发现了25000条数据差异,落实纳税企业5000多户,补缴税款2700多万元。

5.大数据与交通

交通大数据中我们生活中用的比较多的是导航,它可以准确定位我们的位置,输入目的地,可以规划最佳线路。实际上,大数据不仅方便我们出行,还能有效的解决目前最受关注的城市拥堵问题。它比一个老司机还管用。国家信息中心专家委员会副主任宁家骏说,在智慧城市建设中,大数据能够有效地解决目前最受关注的城市拥堵问题。

以智慧交通为例, 通过信息化建设连接道路信息管理系统、交通信号系统、公共汽车系统、出租车系统、电子收费系统、 停车场系统等, 实现数据共享, 对于政府部门来说,通过实时挖掘为出行者和交通监管部门提供实时交通信息,有效缓解交通拥堵, 快速响应突发状况,为城市交通的良性运转提供科学的决策依据, 提高民生体验;对于参与企业来说, 可以在停车场、市民出行等领域提供增值服务,探索新商业模式。

作为国内首个大数据综合试验区,贵州的大数据走在全国前列。以贵州交警为例,贵州交警以警务云建设为保障,以大数据技术为支撑,构建起道路交通安全大防控体系——贵州公安交警云。该平台由619台服务器、46台网络交换机、12PB总存储组成,总规模达到提供10000个核运算能力、计算能力相当于10台银河巨型计算机构成,以云平台为支撑构建了汇集公安内外部数据的大数据资源池,同时汇聚了全省“天网工程”6.8万路信号和贵州路网全部监控资源(2064路视频监控信号,高速公路283个收费站、2073条车道图像数据)。依托于阿里云大数据处理平台ODPS,实现了对海量交通数据进行全库关联、智能联想、自动研判、深度挖掘,为公共服务、交通管理、警务实战提供了有力支持。依托大数据云平台和三级指挥体系等,贵州省交通管理工作取得明显成效。截至9月21日,今年来贵州省高速公路发生一次死亡3人以上的较大道路交通事故2起,同比减少8起;高速公路交通事故次数和死亡人数分别同比下降83.72%和78.26%,创下贵州省高速公路开通以来事故预防工作最好纪录。

近日,连云港推出“掌上公交”手机APP 。除了“公交实时到站查询”,连云港“掌上公交”手机APP还有换乘、线路、站点等功能板块,为市民便捷出行提供帮助。 只要输入你所在的位置和你要去的地点,系统就会为你列出所有的可能的方案,各方案换乘次数及经过的站点数量都会标明,供你参考选择最优的方案。等公交不用“翘首以盼”,点开手机就一目了然。只要点击或者输入所有查询的线路,就能实时看到在线上运营的公交车的具体位置。

6.大数据与宣传思想文化工作

我们宣传工作同样离不开大数据。宣传思想文化工作面向社会,对象是人,这与“大数据”本质契合、本源相通。数据的背后是人,数据记录的是人的各种相关信息,而大规模、成批量、海量化分析这些数据,就能掌握数据背后各类人群的兴趣喜好、生活习性、思想倾向以及政治态度,甚至可以细分掌握每个人的概略情况。这就为改变当前宣传思想文化工作“大锅饭、一勺烩”、“全覆盖、无重点”、“一阵风、缺效果”等弊病提供了可能。建立数据思维,挖掘数据资源,善用数据分析,能够实现大众传播向分众传播转变,提高宣传效益性;在研究对象方面,能够促使无的放矢向对症下药转变,确保传播实效性。 目前宣传工作中常见的大数据对舆情监测。大数据反映舆情和民意。网民在网上产生的海量数据,记录着他们的思想、行为乃至情感,通过不间断地监控网站、论坛、博客、微博、平面媒体、微信等信息,及时、全面、准确地掌握各种信息和网络动向,从浩瀚的大数据宇宙中发掘事件苗头、归纳舆论观点倾向、掌握公众态度情绪、并结合历史相似和类似事件进行趋势预测和应对建议。

通过宣传思想工作整合社会意识、凝聚实现中国梦的强大合力,更需要借助“大数据”。2013年11月,百度与中央党校战略学教研室合作,汇总网民搜索内容,运用“大数据”技术,分析出社会对十八届三中全会系列改革政策的关注度排行,并就关注度、关注增幅、持续关注性三个指标深入研究,为相关部门研究决策提供数据支撑。以上例子说明,有效整合社会意识,有意识引导社会思想,进而实现凝心聚力、团结奋进目标,在当前时代已经呈现出一条科学精准、客观量化的全新路径。当前宣传工作中理论宣讲“难以入心”,党报党刊“乏人问津”、文艺创作“自娱自乐”等现象都是传统操作逻辑的表征。而 “大数据”技术,则实现归纳逻辑,通过各种途径搜集汇总民意,进而技术化归类分析,在此基础上,进行主题策划、内容设计、形式选择、载体创设,就自然起到了事半功倍的效果,有利于主流意识形态自然融入、春风化雨。

在媒体宣传方面,2014年8月18日,中央全面深化改革领导小组第四次会议审议通过《关于推动传统媒体和新兴媒体融合发展的指导意见》。其中值得关注的表述“要顺应互联网传播移动化、社交化、视频化的趋势,积极运用大数据、云计算等新技术,发展移动客户端、手机网站等新应用新业态,不断提高技术研发水平,以新技术引领媒体融合发展、驱动媒体转型升级”。2014年1月,央视晚间新闻推出“据说春运”特别节目,首次采用百度地图LBS定位的可视化大数据,播报国内春节人口迁徙情况。当时正值春运进入高峰,每天都有数亿人次在全国各个城市之间迁徙,并随之产生各种各样的相关数据:哪条返乡之路最热?从北京回到哪个城市的人最多?哪个旅游城市今年最受欢迎?这些公众关心的话题其实都可以通过数据来反映出来,央视晚间新闻栏目敏锐地抓住了这一选题,并联合百度LBS定位大数据,恰逢其时地推出了“据说春运”特别节目。这种新颖的新闻报道方式在播出后引发网友们热议。两会期间,央视加大了对大数据分析在新闻报道中的应用力度,在每天的“新闻联播”中专门设置一个专题栏目《两会解码——两会大数据》,由主持人向观众详细解读当天通过大数据分析得出的最热门话题。

在推动文化发展繁荣,不断满足群众精神文化需求方面,“大数据”具有无可替代的优越属性。美国奈飞公司(Netflix)制作推出的电视连续剧《纸牌屋》大获成功,实质上就是文化产业与“大数据”完美融合的产物,其决策、投资、剧情背后都有着市场受众相关数据的支撑,在开拍前已经有了市场前景和成功概率的数据分析,最终“叫好又叫座”。这是近期热门的电视剧《花千骨》的大数据统计。。。。从中可以看出,文化领域引入“大数据”具有天然优势。文化领域本身创造数据内容,这些数据具有较高消费价值,再加上每个人都有文化需求,用户资源雄厚,基于庞大的对象群体进行数据分析,将大大提升决策科学性,最大限度保证文化服务和产品实现供需之间的无缝对接。我国电视剧年产量早已是世界第一,电影年产量也已经进入世界前三,但播出率不高、影响力偏弱,真正实现社会效益、经济效益双丰收的佳作少之又少;在公共文化服务方面,供给与需求之间“两脱节”、“两张皮”现象严重,“文化下乡”、“农家书屋”等形式较难满足基层群众多样多变的精神需求。借助“大数据”工具,通过对受众行为数据的挖掘和分析,确定受众内心需求和消费心理,能有效提升文化产品消费体验,有效延长文化产业链,有效解决文化产品定价难题,最终满足受众多样多变的精神文化需求,激发文化繁荣发展的不竭动力。

大数据在金融、农业、体育、城管等方面都有很好的应用。 

三、大数据技术的机遇和挑战

机遇——大数据技术促进国家和社会发展

大数据技术的运用前景是十分光明的。

当前,我国正处在全面建成小康社会征程中,工业化、信息化、城镇化、农业现代化任务很重,建设下一代信息基础设施,发展现代信息技术产业体系,健全信息安全保障体系,推进信息网络技术广泛运用,是实现四化同步发展的保证。大数据分析对我们深刻领会世情和国情,把握规律,实现科学发展,做出科学决策具有重要意义,我们必须重新认识数据的重要价值。

机遇——大数据蓝海成为企业竞争的新焦点

大数据所能带来的巨大商业价值,被认为将引领一场足以与20世纪计算机革命匹敌的巨大变革。大数据正在对每个领域都造成影响,包括商业、经济等领域。大数据正在促生新的蓝海,催生新的经济增长点,正在成为企业竞争的新焦点。

机遇——大数据时代呼唤创新型人才

盖特纳咨询公司预测大数据将为全球带440万个IT新岗位和上千万个非IT岗位。麦肯锡公司预测美国到2018年需要深度数据分析人才44万——49万,缺口14万——19万人;需要既熟悉本单位需求又了解大数据技术与应用的管理者150万,这方面的人才缺口更大。中国是人才大国,但能理解与应用大数据的创新人才更是稀缺资源。

挑战——大数据技术的运用仍有困难

大数据改变了人们的生活,给我们的生活带来机遇的同时,也带来了很多挑战。目前,大数据技术的运用仍存在一些困难与挑战,体现在大数据挖掘的四个环节中。首先在数据收集方面。要对来自网络包括物联网和机构信息系统的数据附上时空标志,去伪存真,尽可能收集异源甚至是异构的数据,必要时还可与历史数据对照,多角度验证数据的全面性和可信性。其次是数据存储。要达到低成本、低能耗、高可靠性目标,通常要用到冗余配置、分布化和云计算技术,在存储时要按照一定规则对数据进行分类,通过过滤和去重,减少存储量,同时加入便于日后检索的标签。第三是数据处理。有些行业的数据涉及上百个参数,其复杂性不仅体现在数据样本本身,更体现在多源异构、多实体和多空间之间的交互动态性,难以用传统的方法描述与度量,处理的复杂度很大,需要将高维图像等多媒体数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态而且可能是模棱两可的数据中综合信息,并导出可理解的内容。第四是结果的可视化呈现,使结果更直观以便于洞察。目前,尽管计算机智能化有了很大进步,但还只能针对小规模、有结构或类结构的数据进行分析,谈不上深层次的数据挖掘,现有的数据挖掘算法在不同行业中难以通用。

“取之不尽,用之不竭”,大数据的真实价值就像漂浮在海洋中的冰山,其实我们现在对于大数据的挖掘应用只是冰山一角,而绝大部分的价值都隐藏在表面之下。我相信,未来的大数据的发展会如舍恩伯格所说的,是一场生活、工作与思维的革命,会给我们带来更多的美好。未来,大数据所带来的精彩值得期待。

weinxin
关注“连云港人文”微信公众号