我们知道网络无秘密,在网页上敲击的每一个数据,都会被自动记录。当数据的积累量足够大的时候,量变引起了质变。“大数据”通过对海量数据有针对性的分析,赋予了互联网智商,这使得互联网的作用,从简单的数据交流和信息传递,上升到基于海量数据的分析,一句话“他开始思考了”。那么大数据到底是什么?他和边缘计算有什么关系呢?一起来了解一下!

浅谈大数据

大数据的应用和技术是在互联网快速发展中诞生的,起点可追溯到 2000 年前后。当时互联网网页爆发式增长,每天新增约 700 万个网页,到 2000 年底全球网页数达到 40 亿,用户检索信息越来越不方便。

谷歌等公司率先建立了覆盖数十亿网页的索引库,开始提供较为精确的搜索服务,大大提升了人们使用互联网的效率,这是大数据应用的起点。当时搜索引擎要存储和处理的数据,不仅数量之大前所未有,而且以非结构化数据为主,传统技术无法应对。为此,谷歌提出了一套以分布式为特征的全新技术体系,即后来陆续公开的分布式文件系统(GFS,Google File System)、分布式并行计算(MapReduce)和分布式数据库(BigTable)等技术,以较低的成本实现了之前技术无法达到的规模。这些技术奠定了当前大数据技术的基础,可以认为是大数据技术的源头。

伴随着互联网产业的崛起,这种创新的海量数据处理技术在电子商务、定向广告、智能推荐、社交网络等方面得到应用,取得巨大的商业成功。这启发全社会开始重新审视数据的巨大价值,于是金融、电信等拥有大量数据的行业开始尝试这种新的理念和技术,取得初步成效。与此同时,业界也在不断对谷歌提出的技术体系进行扩展,使之能在更多的场景下使用。2011 年,麦肯锡、世界经济论坛等知名机构对这种数据驱动的创新进行了研究总结,随即在全世界兴起了一股大数据热潮。

2012年,奥地利的数据科学家维克托迈尔-舍恩伯格出版了《大数据时代》一书,书中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据有4个特点简称4V(下面单独讲):Volume(数据量)、Velocity(时效性)、Variety(多样性)、Value(价值)。大数据不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。同样在2012年,奥巴马政府宣布投资2 亿美元启动“大数据研究和发展计划”,并且定义为“未来的新石油”,希望增强政府收集、分析和萃取海量数据的能力。这个由世界最强国家政府推动的项目,标志着“大数据”时代的到来!

2015年,国务院发布《促进大数据发展的行动纲要》。《纲要》提出,要加强顶层设计和统筹协调,大力推动政府信息系统和公共数据互联开放共享,加快政府信息平台整合,消除信息孤岛,推进数据资源向社会开放,增强政府公信力,引导社会发展,服务公众企业;以企业为主体,营造宽松公平环境,加大大数据关键技术研发、产业发展和人才培养力度,着力推进数据汇集和发掘,深化大数据在各行业创新应用,促进大数据产业健康发展;完善法规制度和标准体系,科学规范利用大数据,切实保障数据安全。《纲要》明确,推动大数据发展和应用,在未来5至10年打造精准治理、多方协作的社会治理新模式,建立运行平稳、安全高效的经济运行新机制,构建以人为本、惠及全民的民生服务新体系,开启大众创业、万众创新的创新驱动新格局,培育高端智能、新兴繁荣的产业发展新生态。政府背书,大数据行业开始掀开新篇章。

大数据特点

● Volume(数据量)

大数据量,究竟有多大呢?

4亿用户,每天上亿条微博;

2016年智利的巡天望远镜5天就可以产生150兆兆字节数据;

数据规模大,可以从TB跃升至PB甚至EB;

1024GB=1TB,(20万张照片)

1024TB=1PB;(2亿张照片)

1024PB=1EB;(2000亿张照片)

1024EB=1ZB(2011年全球创建和复制的数据总量是1.8ZB)

数据量不仅大,增长还很快——每年增长50%。也就是说,每两年就会增长一倍。目前的大数据应用,还没有达到ZB级,主要集中在PB/EB级别。

● Variety(多样性)

数据的形式是多种多样的,包括数字(价格、交易数据、体重、人数等)、文本(邮件、网页等)、图像、音频、视频、位置信息(经纬度、海拔等),等等,都是数据。数据又分为结构化数据非结构化数据。从名字可以看出,结构化数据,是指可以用预先定义的数据模型表述,或者,可以存入关系型数据库的数据。

结构化数据

例如,一个班级所有人的年龄、一个超市所有商品的价格,这些都是结构化数据。而网页文章、邮件内容、图像、音频、视频等,都属于非结构话数据。在互联网领域里,非结构化数据的占比已经超过整个数据量的80%。大数据,就符合这样的特点:数据形式多样化,且非结构化数据占比高。

● Velocity(时效性)

要求系统在短时间内做出反应,对数据实时处理有极高的要求,通过传统数据库查询方式得到的。大数据还有一个特点,那就是时效性。从数据的生成到消耗,时间窗口非常小。数据的变化速率,还有处理过程,越来越快。例如变化速率,从以前的按天变化,变成现在的按秒甚至毫秒变化。用数字举例:

就在刚刚过去的这一分钟,数据世界里发生了什么?

Email:2.04亿封被发出

Google:200万次搜索请求被提交

Youtube:2880分钟的视频被上传

Facebook:69.5万条状态被更新

Twitter:98000条推送被发出

12306:1840张车票被卖出

……

“当前结果”可能已经没有价值了。

● Value(价值)

单条数据无价值,无用数据多,综合价值大。海量数据带来了巨大的商业价值。数据之间关联性支持深层的数据挖掘。大数据的数据量很大,但随之带来的,就是价值密度很低,数据中真正有价值的,只是其中的很少一部分。例如通过监控视频寻找犯罪分子的相貌,也许几TB的视频文件,真正有价值的,只有几秒钟。

2014年美国波士顿爆炸案,现场调取了10TB的监控数据(包括移动基站的通讯记录,附近商店、加油站、报摊的监控录像以及志愿者提供的影像资料),最终找到了嫌疑犯的一张照片。

大数据应用

大数据应用的关键,也是其必要条件,就在于"IT"与"经营"的融合,当然,这里的经营的内涵可以非常广泛,小至一个零售门店的经营,大至一个城市的经营。以下是关于各行各业,不同的组织机构在大数据方面的应用的案例。

● 医疗行业

Seton是采用IBM最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息,通过大数据处理,更好地分析病人的信息。

在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。

它让更多的创业者更方便地开发产品,比如通过社交网络来收集数据的健康类App。也许未来数年后,它们搜集的数据能让医生给你的诊断变得更为精确,比方说不是通用的成人每日三次一次一片,而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。

● 通信行业

XOCommunications通过使用IBM SPSS预测分析软件,减少了将近一半的客户流失率。XO现在可以预测客户的行为,发现行为趋势,并找出存在缺陷的环节,从而帮助公司及时采取措施,保留客户。此外,IBM新的Netezza网络分析加速器,将通过提供单个端到端网络、服务、客户分析视图的可扩展平台,帮助通信企业制定更科学、合理决策。

电信业者透过数以千万计的客户资料,能分析出多种使用者行为和趋势,卖给需要的企业,这是全新的资料经济。中国移动通过大数据分析,对企业运营的全业务进行针对性的监控、预警、跟踪。系统在第一时间自动捕捉市场变化,再以最快捷的方式推送给指定负责人,使他在最短时间内获知市场行情。

NTT docomo把手机位置信息和互联网上的信息结合起来,为顾客提供附近的餐饮店信息,接近末班车时间时,提供末班车信息服务。

● 零售业

"我们的某个客户,是一家领先的专业时装零售商,通过当地的百货商店、网络及其邮购目录业务为客户提供服务。公司希望向客户提供差异化服务,如何定位公司的差异化,他们通过从 Twitter 和 Facebook 上收集社交信息,更深入的理解化妆品的营销模式,随后他们认识到必须保留两类有价值的客户:高消费者和高影响者。希望通过接受免费化妆服务,让用户进行口碑宣传,这是交易数据与交互数据的完美结合,为业务挑战提供了解决方案。"Informatica的技术帮助这家零售商用社交平台上的数据充实了客户主数据,使他的业务服务更具有目标性。

零售企业也监控客户的店内走动情况以及与商品的互动。它们将这些数据与交易记录相结合来展开分析,从而在销售哪些商品、如何摆放货品以及何时调整售价上给出意见,此类方法已经帮助某领先零售企业减少了17%的存货,同时在保持市场份额的前提下,增加了高利润率自有品牌商品的比例。

边缘计算和大数据

随着时间的推移,大数据正在滚雪球,全球的云存储和其他类似的服务,正承受着大量复杂数据处理请求的压力。数据服务中心存在于远离其连接的数据密集型应用程序的地方,需要费力地完成它们的请求。边缘计算的出现一定程度上缓解了大数据带来的负荷,边缘计算发挥着举足轻重的作用,受到了那些注重大数据应用的零售、安防监控、交通运输、医疗制造等各行业客户的青睐。

边缘计算在物联网大数据中应用

物联网是一个技术体系,与我们传统的网络是不同的,它通常被分为4层:传感控制层,网络层,平台层和应用层。其中平台层和应用层均处在数据中心,传统的云计算模型是将数据管理,数据分析,以及数据处理等功能全部寄于数据中心来实施,而网络层作为数据传输的通道,负责数据的来回传输过程,但随着物联网的不断发展,更多的企业希望能够用更高效的方法代替现在的传统算法。

物联网中随着连接的物在不断增加,物与物之间的联系变得更加的密切,在大量的信息面前,数据中心处理数据的方式会降低很多效率,更多的需要是物与物之间的联系,边缘计算模型恰恰能够满足这样的作用方式,既能降低了数据转移过程中的时间,也能减少数据传送过程中的资源消耗问题。

边缘计算在城市大数据中应用

现在的都市很多基础设备已经实现了自动化,那么自动化的基础模型又何尝不是边缘计算模型呢。拿我们经常在城市中看到绿化带滴灌方式来说,由于不同区位的空气湿度,天气变化,土壤湿度变化等不同,所以绿化带中的花草对于水量的要求也不同。如果我们仍采用中心控制方法来进行灌溉,那么必然会存在部分地区受灌溉严重,部分地区受灌溉不足的现象。边缘计算为绿化灌溉提供了解决办法,不同的区域均存在自己的控制中心,通过对本地区的各项因素来计算植被的需水量,大大提高了灌溉的可靠性。

智能交通,也成为我们当今生活的一部分。智能交通系统通过在交通中部署的监控摄像头和传感器来收集大量的交通情况,并通过对数据的处理过程,自动做出决策,利用智能交通信号灯来减轻此时的交通拥堵情况或者通过其他指示灯来改变车的行驶路线。如果将这些数据信息传输给智能交通数据处理中心处理,首先由于数据的来回传输耽误了最佳的交通控制时间,使得交通拥堵等情况变得更加严重,其次,由于数据中心处理的数据具有一定的时延性,等到数据处理后在传给各个终端时,得到的处理方案可能已经不再实用于此时的交通。

大数据是继云计算、物联网之后IT产业又一次颠覆性的技术变革,对国家治理模式、对企业的决策、组织和业务流程、对个人生活方式都将产生巨大的影响。边缘计算和大数据相结合有助于解决云计算所无法解决的问题和挑战。