摘要:近年来企业产生的数据量急剧增长,传统信息化技术和分析模式已经无法应对新的挑战。以Hadoop 为代表的大数据分布式处理技术的出现,为企业处理日益增长的海量非结构化数据提供了 高效、可扩展的低成本解决方案。大数据技术可以有效弥补传统数据仓库的不足,深化和拓展企业的商业智能,提高决策水平,形成数据驱动的决策机制,推动企业信息化管理进入全新的阶段。 【关键词】信息化管理 数据仓库 大数据 大数据 分析 分布式处理 传统信息化主要是整合业务流程和信息资源,提高生产和作业效率,并逐步向商业智能(BI)发展。这些年由于网络和信息化的快速发展,企业数据量急剧增加,尤其是半结构化和非结构化数据增长很快,传统数据库、数据仓库由于性能问题,已经无法满足快速和高效处理海量数据的需要,必须采用新的技术和架构来应对这一日渐迫切的要求。 1 迎接大数据时代的来临 大数据及其分析技术最初起源于互联网行业。为解决持续增长的海量数据集存储和查询问题,以Google 为代表的互联网公司提出了MapReduce 技术框架,利用廉价的PC 服务器集群,大规模分布式地处理批量事务。受此启发,Apache 开发了支持大数据存储和计算的开源框架Hadoop。现在,大数据分析正愈来愈广泛地应用于电子商务、金融保险、医疗健康、市场营销、预测预警等行业或领域,在分析非结构数据上,大数据显示了独特的优势。目前,国内百度、腾讯和淘宝等公司的数据仓库都采用了Hadoop 平台。2010 年IBM收购了数据分析公司Netezza,开始拓展商业方面的市场;2012 年甲骨文公司发布了运行在Hadoop 上的NoSQL 数据库;微软宣布与致力于Hadoop 开发的Hortonwork 公司建立合作关系……此外,还有ClickFox、Cloudera 等新兴的大数据企业也如雨后春笋般涌现出来。我们正在进入一个大数据的时代! 2 Hadoop存储和分析技术大数据是指具有大容量、高速度、多样性(简称“3V”)的海量数据集。这些数据来源于各种互联设备、移动设备、RFID 和各种传感设备,以及企业现有系统和设备产生的数据。这些数据具有不同的结构和格式,包括文档图表、图像视频、网页日志等,大部分是半结构化和非结构化的数据。传统数据仓库及T架构,无法高效处理如此庞大和复杂的数据。Hadoop 是建构在分布式集群上的门处理海量数据的开源框架,主要包括两个部分:HDFS 文件系统和MapReduce 计算框架。此外,Hadoop 项目还包括多个应用工具,例如,分布式数据库Hbase,兼容Hadoop 系统的数据 仓库Hive 等等。Hadoop 采用分布式网格计算和“无共享”体系结构,通过简单的编程模型直接在存储数据的服务器节点上处理数据,具有极快的运行处理速度;Hadoop 维护多个数据副本,有很高的容错力;Hadoop 框架非常容易扩展,只需要添加硬件设备即可。Hadoop 能够同时吸取和存储不同数据源的各种数据,并以任意的方式聚集和处理数据,传送到任何需要的地方,通过相关系统实现交互式的商业智能(BI)。大数据分析的对象是全体数据,避免了选择随机样本的问题;其简单的算法往往比过去复杂的算法更加有效;大数据追求相关关系,运算速度极快,很适合进行预测和预警分析。 3 建立以数据为中心的信息化管理大数据处理和分析技术的出现,改变了传统信息化管理的思维模式,为企业管理带来了深刻的变革。我国企业现有的信息系统大都关注流程的建设,通过系统来固化流程,例如,ERP、PDM/PLM 等系统及其应用。由于数据集成和成本问题,成功运用BI 的企业很少,而高效低成本大数据技术的出现有望改变这一现状,充分发掘数据这一企业最重要的资源。大数据突破了数据源、数据形式的限制,可以为业务和生产提供实时而有预见性的分析。通过大数据分析,可以获取深入准确的洞见,改变依靠经验和直觉的决策方式;可以动态优化供应链,降低采购成本;可以获取优质客户,进行精准的销售和服务……在生产制造方面,通过高频率处理和分析数据,可以准确地获取信息,发现生产过程中的变异和产品缺陷,优化工艺参数,提高产品质量和生产效率。英特尔公司2012 年建立的基于Hadoop的大数据平台,可以处理2000 亿个服务器事件,通过分析收集的历史数据,减少了每个芯片必须进行的19000 个测试;通过收集芯片制造过程中的信息,发现了许多缺陷,并及时进行了修复。这种预见式的工艺分析,仅一条生产线就为英特尔节约了大约300 百万美金的生产成本。采用传统数据仓库的企业,可以将现有平台与Hadoop 进行集成,将数据连接到Hadoop软件上,同时处理结构化和非结构化数据。Hadoop 与具有并行处理能力的数据仓库相结合,可以组成扩展性极强的低成本大数据平台,实现数据的高速装载和移动。混合系统是大数据应用发展的一个重要方向。 4 结束语 大数据时代,企业必须重新审视自己的信息和数据管理策略,根据自身的业务和需求,部署并不断调整大数据处理和分析架构,建立数据驱动的决策机制,实行以数据为中心的信息化管理战略。现在,数据已经成为企业除人力和资本外的重要资产和宝贵资源,有效开发和利用数据信息,可以为企业创造更大的财富和价值。大数据开启了一个时代的转型,掌握和运用大数据已经成为企业创新和赢利的重要保证。 参考文献 [1] 杨海成. 制造业信息化集成平台技术 发展的认识与思考[J]. 航空制造技 术,2004(01). [2]Paul C,Zikopoulos. 理解大数据[M]. McGraw-Hill 出版,2012. [3]Extract,Transform,and Load Big Data w i t h A p a c h e H a d o o p , I n t e l W h i t e Paper,2013. 作者简介 唐珩(1992-),贵州省贵阳市人。现为香港 理工大学电子计算学系本科在读学生。研究方 向为大数据和网络安全。 作者单位 香港理工大学电子计算学系 香港特别行政区 |