RFID世界网 > 新闻中心 > 物联网新闻 > 正文

RFID半结构化巨量资料分析如何是好?

作者：RFID世界网收录

来源：DIGITIMES

日期：2012-10-16 14:16:40

摘要：传统的BI或资料仓储(Data Warehouse)，系擅长于处理结构化资料，亦即一般存放于关联式数据库的数据，对于XML、Logs、Click-Stream、RFID Tags等半结构化资料，抑或网页、电子邮件、多媒体、实时讯息等非结构化资料，处理能力一向都不太好，少量处理如此，面对现今爆炸性的「巨量」，那更是无力应付。所以企业若一味缅怀过去，运用传统资料仓储、资料采矿(Data Mining)等工具鉴往知来，恐将事与愿违，因为这些工具所带出的分析结果，对于企业竞争力的提升作用，已经愈来愈小。

关键词：RFID半结构化零售物流

　　举世闻名的Wal-Mart，藉由经年累月的结帐资料分析，缔造了「尿布与啤酒」的惊奇故事，大家这才乍然醒悟，原来看似风马牛不相及的事物，也蕴藏着不为人知的致胜秘诀，显见商业分析之重要性;但「尿布与啤酒」毕竟属于事后分析，Wal-Mart现在更想做的，已经不仅止于此。

　　尽管「巨量资料」或「海量资料」等词汇，几乎已经密集延烧了一整年，但Big Data议题不仅未见丝毫疲态，这把火反倒愈烧愈旺，成为企业蓄积智慧与洞察力的绝佳宝库，许多高阶主管，都乐此不疲从巨量资料中探索致胜秘诀，据此建立竞争优势。放大

　　Wal-Mart过去为人乐道的尿布与啤酒传奇，已成为「传统」。新的商业分析技术正在兴起，可以挖掘出过去显为人知的讯息。

巨量资料分析架构示意图

　　乃至于全球最大的软件公司微软(Microsoft)，也将巨量资料与行动应用、云端运算、企业生产力(含企业社群)等另三项议题，列为「主导未来十年产业变化」的四大趋势之一;其认为多年以来，商业智慧一直扮演重要角色，如今随着互联装置及应用程序的大量运用，引发爆炸性的资料增长，遂使得商业智慧愈趋朝向巨量资料靠拢，成为企业赖以洞烛机先的关键利器。

　　值得一提的，随着巨量资料、商业智慧彼此间擦撞火苗，也让现今的商业分析内涵，出现了有别以往重大转变;在过去，商业分析的重点，仅在于冰山之上已知可见的结构化数据，偏向事后分析型态，然而今后，其重点已经转向为冰山之下的未知信息，且泰半属于大家从前鲜少进行分析的非结构化资料型态。

　　Wal-Mart过去为人津津乐道的尿布与啤酒传奇，至此已可归类为「传统」的商业分析，展望未来，企业倘若只是做到这一步，并不足以掌握关键契机;所以Wal-Mart早就不以此为自满，而是主动分析顾客搜寻商品的行为，以及用户透过搜寻引擎寻找到Wal-Mart网站的关键字，利用这些关键词的分析结果发掘顾客需求，以规划下一季商品的促销策略。

　　不仅如此，Wal-Mart还瞄准了当今最炙手可热的社群网站，期望从顾客在Facebook、Twitter等网站上对商品的讨论，早一步掌握潜在消费需求，终至创造「比父亲更早知道女儿怀孕」的另一惊奇故事。

　　面临新挑战　企业亟需培育新智能

　　即便许多企业，所属业态与Wal-Mart大相迳庭，生财模式也与Wal-Mart多所歧异，但可以肯定的是，随着全球经济情势与商业环境的改变，未来企业规模无论是大或小、从业资历不管是深或浅，都无可避免一定会面临诸多新挑战。

　　这些挑战，包括了商品的竞争与价格压力渐增、新市场的需求扩大、人力资源管理难度攀升，以及企业永续性与法规遵循的要求愈趋严格;在此前提下，企业别无他法，势必得力求推动更多的创新，加快技术研发的速度，并设法改善客户服务与盈利能力。

　　意欲将前述条件逐一付诸实践，对于绝大多数企业而言，其实并不容易，因而导致大部分公司抗御经济情势与商业环境变动的能力，都显得有所不足，为业务发展埋下不确定因子;于是乎，现今不管身处哪一国度、哪一垂直产业领域的企业用户，最殷切的期盼，便是寻求一个好的解决方案，借以帮助他们节省金钱、提高生产力、带动业绩的成长。

　　以上三个愿望，看似平凡无奇，理应不难达成，实则不然，主因在于当前世局变迁速度加快，连带造成各项新挑战接踵而至，使得企业很难再沿用过去熟悉的方法，实现这些基本目标，必须援引新的方式，建立新的智能，才可望扭转整个局面。

　　如何培育新智能?答案就在于巨量资料分析!

　　传统 vs. 现代　商业分析大不同

　　传统的BI或资料仓储(Data Warehouse)，系擅长于处理结构化资料，亦即一般存放于关联式数据库的数据，对于XML、Logs、Click-Stream、RFID Tags等半结构化资料，抑或网页、电子邮件、多媒体、实时讯息等非结构化资料，处理能力一向都不太好，少量处理如此，面对现今爆炸性的「巨量」，那更是无力应付。

　　所以企业若一味缅怀过去，运用传统资料仓储、资料采矿(Data Mining)等工具鉴往知来，恐将事与愿违，因为这些工具所带出的分析结果，对于企业竞争力的提升作用，已经愈来愈小。

　　那么该如何是好?即是设法强化半结构化与非结构化巨量资料的处理能力，以期填补既有商业分析机制的先天缺陷;其大致的运作原理是，运用一套全新的解决方案，先针对内外部巨量资料加以储存、运算、处理与分析，然后再把其处理或分析结果，转变为某种结构化格式，如此一来，BI或资料仓储便可撷取这些结果，为终端使用者进一步提供相关的索引或搜寻。

　　于是乎，最擅长处理半结构化与非结构化资料的Hadoop-MapReduce，遂成为巨量资料分析架构当中的重要环节，从以往鲜为人知，变成今时今日的当红技术;根据市场研究机构MarketAnalysis.com预估，时值2013~2018年期间，Hadoop-MapReduce市场的复合成长率高达58%，到了2018年其产值将达22亿美元，放眼各项IT产品或技术，具备类似于Hadoop-MapReduce增长幅度的项目，其实并不多见。

　　综此，建立Hadoop-MapReduce分散式运算架构，似已成为企业跨足巨量资料分析的必经之途，但要想在这条路上走得安稳，企业必须先把大环境给营造出来，首先便是导入云端运算，藉由虚拟化技术将一群廉价的运算资料，汇集于可供挪移调度的资源池。

　　其次则是建立资料储存(Storage)与撷取(Retriever)机制，因此举凡HDFS(Hadoop Distributed File System)分散式档案系统，以及立基于栏位(Column)的HBase数据库系统，显然都成为企业IT人员的必修学分。

　　HDFS有一个更传神的称谓-NameNode，负责将档案切割成为固定大小的区块，然后再将各个区块分散储存至不同的DataNode上，运作原理彷彿Linux档案系统里头的Inode;因档案储存皆跨越实体机器，所以HDFS可被为一项虚拟的分散式档案系统，与传统档案系统分割Block后都存放到同一机器的做法，的确大不相同。

　　至于HBase，我们可以这样解释，简单来说，Hadoop就是一套实现Google Map & Reduce的工具，而HBase则用以实现Big Table设计概念，两者皆属于Apache项目的一环，也都以Java作为主要程序语言。Hbase是一种足以迅速存取大量资料的数据库设计方法，它运用Row-Oriented、Column Family等思维，俾使用户便于储存具备不同栏位属性的资料，尔后亦可援引Row Key，快速读取其所需要的资料。

　　而不管是HBase，以及负责将单一工作分散至不同集群加以平行运算的MapReduce，大家都需构筑在HDFS基础之上，所以无论在建立HBase或Hadoop时，皆需设定联系HDFS的Server与Port，以便于让同一份档案，可被复制到不同的运算节点。

　　一旦运用Hadoop-MapReduce负责处理半结构化与非结构化资料，再配合传统BI与资料仓储对于结构化资料之处理与分析，企业即可成功进入Big Data世界，再从Big Data走向Total Data，从过去茫然未知的冰山下世界，深入萃取商业价值，借以预测未来、优化竞争策略、提振顾客满意度。

　　此处必须强调，过去的资料采矿，通常是提出「会问」的问题，接着从这些问题找答案、找知识，但进入巨量资料分析，用户心态势必需要调整，转而将重点置于「不会问」的问题，比方说经由客户在社群网站的意见讨论，驱使下一个问题的产生，继而探索解答，以利企业能从未知环境中创造价值。(RFID世界网编辑整理)

【责任编辑：廖小亚】

RFID半结构化巨量资料分析 如何是好?

RFID半结构化巨量资料分析如何是好?