宇宙大爆炸创造了我们现在所居住的这个世界,而数据大爆炸正在创造一个全新的数字宇宙。我们目前处于数据大爆炸的起始阶段:在 2006 年,个人用户才刚刚迈进 TB 时代,全球一共新产生了约 180EB 的数据;在 2011 年,这个数字达到了 1.8ZB 。而根据知名市场研究机构 IDC 的预测,到 2020 年这个数字将扩大 50 倍。从 B(Byte)、KB、MB、GB、TB,到 PB、EB、ZB、YB……数字宇宙的边界不断扩大。“大数据”时代,正在到来。
在“大数据”时代,单个组织的数据级别开始大幅膨胀,已经从 TB 级跃升至 PB 级;而且数据结构也与以往大不相同,其中超过 80% 都是非结构化数据。爆炸性增长的数据为企业带来了新的机遇和挑战:一方面,数据的不断更新扩张给数据存储、管理和分析利用带来了挑战;另一方面,这些包括个人信息、消费记录在内的海量数据当中,蕴含着大量有价值的信息,可以为企业经营、管理提供参考。
“大数据”时代的数据大爆炸
大数据时代的最典型特征,就是数据来源和数据量的爆炸性增长。终端方面,我们常见的电脑、手机等设备随着互联网的成熟和移动互联浪潮的来临,数量已经相当庞大。在中国,截止 2012 年 6 月,移动用户和互联网用户分别达到了 3.88 亿和 5.3 亿。与此同时,随着智慧城市、物联网等新兴应用模式的发展,各种摄像头、数字标牌、感应装置、检测装置以及嵌入式终端的数量也在急剧增加。有关数据预测显示:作为物联网重要的一个组成部分的 RFID 标签,在 2011 年的销量仅为 1200 万个,而到 2021 年其销量将高达 2090 亿。这对于大数据来说,又多了一个数量剧增的来源。
在数据来源急剧增加的同时,能够持续产生各种数据的应用数量也在大幅增加。无论是以 Facebook、Twitter 为代表的个人社交网络及信息网络应用,还是以智能数据标牌、GPS 内代表的嵌入式智能终端应用,都无时无刻不在产生着大量的非结构数据。近几年,我国正在加速智慧城市的建设,而在构建智慧城市的过程中,会产生巨量的数据。据统计,中国某一线城市一年产生的健康档案数据就达到了 5PB ,一个季度产生的智慧城市数据则高达 200PB 。对于“大数据”时代而言,这些只是价值数据的一小部分。通过企业及社区网络、移动智能终端、传感器及物联网、定位及地理信息设备,每天、每时、每刻都在产生着大量的视频、语音、图片、文字、产品信息、地理信息、时间信息等非结构化数据。在这些数据当中,埋藏着消费者的消费习惯、市场变化、产品走势以及大量的历史记录,这些关键数据对于企业和组织的后续运营和发展至关重要。
“大数据”时代的掘金之旅
在“大数据”时代,数据的爆炸性增长只是客观现实,更重要的内涵在于,在这庞大的数据当中蕴含着大量的关键数据。在经过分析提炼之后,这些关键数据将创造巨大的经济和社会价值。 McKinsey Global Institute 在 2011 年的一份研究报告中表示:截止 2020 年的十年间个人位置信息服务创造的价值可能高达 8000 亿美元。而这,只是数据价值的一个小小方面。在经济学概念中,生产力要素包括了三个方面:劳动者、劳动资料和劳动对象。在以往的经济运行过程中,充作劳动对象的往往是包括石油在内的各种矿产资源、生物资源及其加工品;而在“大数据”时代,数据也将成为新的生产力要素。《经济学人 (The Economist)》杂志在 2010 年的一篇文章中就指出:“数据日益成为商业的新源材料:一种与资本和劳动力并列的新经济元素。”知名市场调研机构 Gartner 更是直截了当地表示:“信息将成为 21 世纪的石油。”
在“大数据”时代,数据集的大小已经超过了现有典型的数据库软件和工具的处理能力。如何在“大数据”这座不断扩张的新矿山中,挖出真正有价值的“钻石”——数据挖掘和预测性分析,成为了决定组织在新时代成败的关键。McKinsey Global Institute 在关于“大数据”时代的研究报告中指出,数据已经渗透到了每一个行业和业务职能领域,人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。在互联网时代,数据本身就是资产,而“大数据”则意味着这些资产正在变得庞大无比。如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服务,是“大数据”时代的核心问题。
大数据,下一个黄金增长点!
大数据不仅仅是指日渐膨胀的复杂数据,更描绘了一个正在快速发展的生态系统,从新技术、新技能、新实践到崭新的商业模式。在这个新的生态系统当中,企业和组织必须建立对大量的、不断增长的、多样的、多维的、结构化以及非结构化数据进行管理、分析并据此采取行动的体系架构。这一体系架构的基础,就是针对大数据的捕捉、存储、聚合、管理和分析的技术和能力。基于新存储介质以及存储虚拟化的智能分层存储系统、全新的高性能计算平台、用于大数据处理的分布式系统基础架构,构成了“大数据”时代基础设施的基石。
为了应对“大数据”时代的各种挑战,英特尔已经在硬件基础架构、软件系统架构以及企业生态系统等方面做好了准备。对于数据分析来说,基于英特尔至强处理器的双路/多路平台具备开放式、普及性、易优化、灵活等特点,同时也保持了在计算、 I/O 等方面易于扩展的传统优势,可以有效加速大数据的价值挖掘,提高决策反应速度,是实现大数据的最理想平台。同时,英特尔还通过类似于 Hadoop 这种分布式架构,联合已有的编译器、优化指令集等软件工具,通过优化底层算法,实现了更高的应用效率和更均衡的计算存储分布。通过硬件平台和软件系统架构的结合,形成了完整的“大数据解决方案”。除此之外,英特尔还顺应“大数据”时代潮流,建立了良性的企业生态系统。凭借作为上游厂商多年的经验,英特尔携手 OEM 厂商、ISV、SI 以及包括电信、石油、交通、医疗以及制造业等行业的最终用户,构建了紧密的“大数据”产业链和蓬勃向上的生态系统。
通过这一生态系统和产业链,企业和组织可以更好地发掘出“大数据”时代的价值,把握住新的黄金增长点。无论是商业模式快速更新的互联网行业,还是日益信息化的电商、物流、零售等行业,以及智能城市、物联网、移动网络等等方面,要想立足于新时期并获得更好的发展,都需要顺应“大数据”时代的趋势。为了适应“大数据”时代的到来,企业和组织需要依托新的大数据生态系统,从技术、应用、硬件等各个层面做好准备,采用更新的 IT 解决方案,以满足“大数据”收集、存储、管理和分析的要求。通过对大数据进行智能的分析和挖掘,找出有价值的信息,促进企业和组织在大数据时代找到自己的“黄金商业机遇”。1