非结构化数据来袭

    |     2015年7月13日   |   会议会展   |     评论已关闭   |    1152

|霍娜|2011-07-12

有人说,人类仅仅开发使用了自己大脑容量的10%,要能够利用其他的90%,人类的洞察力和成就将会无比惊人。这种说法的准确性可能有待研究确定,但与之类似,的确属实的情况是企业一直在分析应用的是只占数据总量20%的那些跑在ERP等系统里的结构化数据。如果再能结合利用其余80%的非结构化数据,那效果就可想而知了。

基础技术在不断发展,而电子商务、移动应用、社交网络等日益活跃,这导致大量的像影像资料、办公文档、扫描文件、Web 页面、电子邮件、微博、即时通信以及音视频等非结构化数据迎面而来,企业应接不暇。

结构化vs 非结构化

相对于存储在关系型数据库里,用二维逻辑表来表现的结构化数据而言,那些不方便用数据库二维逻辑表来表现的数据就是所谓的非结构化数据,包括报表、账单、影像、办公文档、扫描文件、Web 页面、电子邮件以及多媒体音频和视频信息等。

据统计,企业中20%的数据是结构化的,80%则是非结构化或半结构化的。当今世界结构化数据增长率大概是32%,而非结构化数据增长则是63%,至2012年,非结构化数据占有比例将达到互联网整个数据量的75%以上。而非结构化数据中50%~75%的数据都来源于人与人的互动,都是以人为中心产生的。

我们都很熟悉结构化数据,典型的就是事务数据、定量的数据。企业收集、存储、查询、利用它们来制定商业战略、预判趋势、运行报表、进行分析、优化运营。企业在结构化数据的利用方面已经做得很好,通过它能提供重要的业务洞察力,更有效率和有效益地服务于客户,遵循监管法规,为决策制定者提供所需的即时的、持续的关键信息以优化业务。

但今天,许多企业已经意识到,结构化数据仅仅是企业所拥有数据的一小部分。与业务信息系统中大量用于交易记录、流程控制和统计分析的结构化数据相比,非结构化数据具有某种特定和持续的价值,这种价值在共享、检索、分析等使用过程中得以产生和放大,并最终对企业业务和战略产生影响。

比如在医疗行业,逐渐普及的电子病历的建设中,既存在结构化的电子病历数据,也存在非结构化的电子病历数据,而非结构化的电子病历数据的重要性并不比结构化数据低。因为描述病人病情的自然语言要比患者基本信息等结构化数据更丰富形象,而临床产生的大量影像文件对医生的诊断也具有很强的辅助作用。对此感受颇深的是中国人民解放军总医院(301医院)的信息中心主任史鸿飞。

史鸿飞在接受记者采访时表示,由于医院自身的特点,像心电图、波形图、CT片等诊断依据信息都让医院自开展数字化以来不得不面对大量非结构化数据的管理。

不止医院,保险公司也不例外。华泰人寿CIO杨李在接受记者采访时就介绍,华泰人寿的非结构化数据来源于以下几个方面:第一是因为所有业务的原始凭证都被要求存档,所以像保险申请书、审查过程资料和保单等纸质原始资料都会被扫描存成电子文档,比如保单就都是以PDF格式保存的;第二是保险公司呼叫中心的服务录音按照保监会的要求需要永久保存,由此产生了大量的音频文件;第三是一些会议等的视频资料。

她说,随着业务发展,保险公司对风险管控要求越来越高,传统的纸质介质不足以应对这种要求。保险公司需要借助电子化手段,实现更快的查询调阅,这导致越来越多种类型和数量的非结构化数据出现。

价值几何

没有人会看轻非结构化数据的价值。

史鸿飞告诉记者,非结构化数据管理对于医院来说意义重大:首先,它可以促进数据的交换,无论是在医院内部还是在不同医院之间。试想,如果大量的病例、拍的片子都可以被有效存储成非结构化数据,以电子方式存储、传递、交换,那这对于医院流程管理、方便患者就医等是多么有价值。

其次,非结构化数据在临床诊断方面,可以做更全面的展示,更高效地辅助医生诊断。医生在临床就诊时,不仅可以调出患者基本信息和以往诊断书,还可以直接调病人所拍的像胸透、肠镜等检查的影像资料,再加上现场望闻问切病人的病情,医生掌握了更加全面、直观的病情资料,就可以提高诊断效果和效率。

另外,在医院科研方面,非结构化数据管理也颇具价值。试想,如果某位医生要想钻研肺癌的研究治疗,那么过去他只有抱着厚厚的书和笔记本学习,而要研究个案时,需要去病案室在一堆封存已久的片子中寻找想找的那张,其难度和效率可想而知。现在有了电子版的影像资料,医生就可以根据病人的索引找到其电子病历来研究。更遥远的设想是,如果将来能对同一患者的不同片子或者是同一病种不同患者的片子都可以通过数字技术做比对分析,那就更有价值了。

而管理好非结构化数据对保险公司同样也意义重大。杨李以理赔为例向记者进行了介绍,她说,一个理赔案子会涉及理赔对象、理赔数据等,像个人基本资料等理赔人属性和赔付金额、日期等理赔数据都可以做成关系型数据存入数据库,但还会有些资料,比如理赔对象住院时医院的单据、其他说明资料等非结构化数据则会以文件形式存储起来。当理赔员做赔案的时候,他会把理赔对象的信息等关系型数据和原始单据、资料等都调出来,综合考察,衡量定夺。这实际上就是结合结构化和非结构化数据把客户、案子资料全面展示给理赔员,支撑其业务操作,提高业务效率的实例。因为之前没有这些电子版的非结构化数据,对理赔的判断,理赔员只能从客户申请数据得到一些信息,需要凭经验判断,否则如果要求看其他原始资料,那就需要走十天半月甚至更长的纸质流程,业务办理时间会很长,效率很低。

如何管理

杨李介绍,华泰人寿目前对于非结构化数据的管理还比较简单,就是以文件的形式存储起来,按索引查询。但由于权限管理的要求,比如某个岗位的人只能看部分文档甚至是部分文档的一部分,公司管理要求越来越细,让华泰人寿开始考虑是不是需要上一套专业的内容管理系统。另外,非结构化数据的量、种类越来越多,要做到快速的查询调阅需要占用系统大量的I/O资源,这也从另一个方面增强了对内容管理系统的需求。

史鸿飞也介绍,现在301医院对于非结构化数据采用的也是文档服务的管理模式,就是为影像、波形图等建立不同的服务器存储起来,用唯一的ID号为这些资料建立索引,以备查询、展示。但对于更深入的管理应用,史鸿飞坦言,还并没有有效推进。他说,确实国外有先进的医院在探索用不同的模型(如CDA)来统一各种非结构化数据进行管理,但国内的各家医院还都得根据自己的情况来做决定。

虽然对于非结构化数据的价值赞扬有加,但史鸿飞认为现阶段对于医院来说最主要的还是流程的问题,是做好基础的HIS系统及其应用。他说,现在301医院有五大方面的信息化应用,一是HIS系统,实现医院的高效运行管理;二是医疗业务,更有效地采集、存储、展现、共享病历信息,推进电子病历,但这也是医院流程的一部分;三是实现医院的精细化管理,利用信息手段进行科学管理、降低医院成本,从而降低患者看病成本,据悉301新近也在引入 ERP,希望借助先进的企业管理工具,实现精细化管理;四是提升患者服务,提高主动医疗;五是区域医疗,协同互联。

精彩观点

像心电图、波形图、CT片等诊断依据信息让医院自开展数字化以来,一直都得面对大量非结构化数据的管理。非结构化数据在资料传递交换、临床全面展示和医学科研等方面有着重要价值。现在,301医院是采用文档服务的管理模式,建立不同的服务器存储各种非结构化数据,建立索引,以供查询展示,对其更深入的分析应用还无法展开。目前最主要的还是搭建、应用好HIS系统,解决好流程的问题。

301医院CIO史鸿飞

像申请书、保单等业务原始凭证都要被扫描存成电子文档,呼叫中心的服务录音文件和一些视频资料,让保险公司拥有越来越多的非结构化数据。以理赔为例,结合结构化和非结构化数据可以把资料全面展示给理赔员,支撑其业务操作,提高业务效率。华泰人寿目前对于非结构化数据的管理还比较简单,就是以文件的形式存储起来,按索引查询,但权限管理等方面的要求则让华泰人寿开始考虑上马一套专业的内容管理系统。华泰人寿CIO 杨李

eBay的非结构化数据主要来自使用者行为分析数据和网站点击率的分析,这比过去更复杂、多变。以追踪点击率来说,近年来大部分的网页都是动态网页,过去只要透过网址就能知道使用者正在看什么网页,但是现在一个网页上的内容变多了,而且每一秒钟都在变化,这对于分析使用者行为来说,难度更高。近年来eBay在分析数据领域最大的挑战就是要同时处理结构化与非结构化数据。分析点击率等半结构性和非结构性数据是未来工作重点之一。eBay分析平台高级总监Oliver Ratzesberger

责编:admin

转载请注明来源:非结构化数据来袭

相关文章

噢!评论已关闭。