智能数据湖势在必行
由大数据触发的数据驱动的做法是一种最好的理解。如今,各个组织正在各种数据结构,格式和分布式地理数据源位置等方面进行竞争,并在时间框架和数量上超过了现有系统的能力。
以往人们关注了社交,移动和云平台的应用与发展。同样重要的是,在大数据时代之后涌现出的几种辅助技术得到了蓬勃发展,由此产生的基础架构,架构,以及IT挑战表明,整个数据环境发生了模式转变,这种变化是由改变业务进行方式的力量的开始决定的。
由于这种转变的迅速性和其需求的即时性,许多组织希望在市场上寻找最好的解决方案,并有大量的点解决方案来解决数据景观的大规模系统变化,而这些零碎的方法在短期内提供有限的价值,但是由于供应商的锁定和业务的需求不断变化,长期来说其最终成本更高。
此外,即时的反应需要不同的工具来管理大数据的每个方面复杂的架构,同时耗费大量的时间。这种方法的根本缺陷是,这样的工具不是明确设计用于大数据,这限制了其在大数据革命后的价值。
大数据的涌入指出了一系列跨行业因素产生创新的方式,从最初的采纳到分析。这些普遍存在的市场力量对于为数据管理过程的每个方面需要针对大数据技术设计的全面方法是有帮助的。
大量的数据使得需要一个集中的平台,应对当今和未来的数据驱动实践的每一个方面,最好以终端用户管理的自助服务智能数据湖的形式实现。
无处不在的市场力量
了解负责重塑数据环境的市场力量的性质,需要在技术和非技术方面对其进行分析。在前者中,对SMAC(社交,移动,分析和云计算)的依赖代表了访问大数据手段的大决定因素。这些技术深深地影响了大数据对企业的获取形式和形式。它们最显著的效果可能是它们所使用外部数据创造的前所未有的价值,这反过来又有助于强调这种数据与内部数据的集成。同样,他们负责多元结构数据的突出和其固有价值的企业的复杂性。
这种复杂数据格式所带来的新颖的复杂性通过单一集中的语义平台的流线型架构而被均匀地缓解。具体来说,通过在RDF图上链接在一起的演进的语义模型来无缝地合并数据源和类型的多样性的多结构化格式。在该框架内,所有数据元素以标准化方式彼此并排表示,代替了对传统方法所要求的各种结构化数据管理不同数据库,数据模型和模式的需要。在这样的独特平台中,其架构和底层基础设施被明显简化,相应地降低了成本。
非技术力量的典型代表是加速的业务步伐,并在这些缩短的时间框架内解析的数据量。企业进行的速度会受到互联网的普遍性以及它在工作流中根深蒂固的实时响应的巨大影响。这种权宜之计是大数据的其他规定,例如当前流行的传感器数据,移动通信的快速性,以及这些因素能够产生的机会的增加。在这些力量的影响的关键考虑是它们的临时性质。组织可以获得更多的机会,但他们也稍纵即逝,需要对时间敏感的方法来利用数据。
综合平台解决了这些加速的时间问题,使终端用户在决策和基于分析的行动阶段比零碎的方法更快。对单个节点的语义图表示适当的加速调整模式和重新调整了模型与其他方法的奇异性。加速了整个数据准备过程,这可以垄断最好的数据科学家的时间,或者最基本的以数据为中心的需求过分依赖IT。用户能够投入更多的时间用于数据发现和分析,分享现代企业制定的速度。
解决常规问题
上述力量已经塑造了数据环境,由于日益分层的数据管理过程的必要性,导致集中的语义平台广泛的问题。来自SMAC技术的多结构化数据以快速交付的大量数据可能对数据格局的常规领域造成严重破坏,包括:信息治理,数据准备,数据集成,搜索和发现,商业智能和文本分析。
当考虑采用点解决方法的孤岛方式处理数据的这些方面时,容易成为供应商锁定或昂贵的更新的牺牲品,从而产生大量的停机时间。这种方法大的问题是,当业务需求或流程改变时,会缺乏灵活性,任务组织重新启动手段实现,这六个重要功能之一。因此,当他们的系统不能产生价值,同时被迫采用更多的系统维护时,组织会花费更多的时间。
集中式方法的核心价值主张是实现数据使用的所有必要条件的整体方式。通过向现有系统提供必要的覆盖,该方法能够在短期和长期中实现收益。立即获益包括更大程度的企业治理监督,部分通过标准化建模促进,在大多数情况下,包括所有企业数据。随后,数据来源和数据建模更容易解释,并且更易于追踪,这加速了集成尝试。其结果是更快地洞察在组织范围内的治理协议与高度可见的数据,增加对数据资产的信任。
随后的收益与这种洞察的性质有关,远远超过从点解决方案中收集的收益。语义图的链接数据方法集中于节点之间的关系洞察,这有助于其他技术无与伦比的看似无关的数据元素的背景文化。用户能够有更多的数据,以识别他们之间的关系,以及他们的使用情况,否则是无法发现的。
此外,这种链接数据方法使数据发现过程在很大程度上实现了自动化,同时提供了探索性分析,用户可以在其中询问和回答尽可能多的问题。分析的结果是全面明确,并且包罗万象。采取零碎的方法,实现这些目标是困难的。。
预期未来的发展
培养对集中化需求的最紧迫的营销力量是大数据本身日益扩大的影响。对未来几年生产的数据量的预测表明,其扩张并不会停止和停滞。当考虑连接的设备的数量全部无限地在物联网中产生数据,以及增强现实和虚拟现实的进步,并考虑这样的数据的人工智能选项的可用性时,显而易见的是大数据的规模,速度,结构将在不久的将来大量增加。
集中的图形感知环境为这些即将到来的技术进步做好准备。使用它作为Hadoop或其他数据湖设置的基础,使其具有在这种工作负载密集型数据驱动部署中持续提供价值所需的规模和性能一致性。更重要的是,它是一个单一的手段简化每个组件的短期解决方案,点解决方案不是为大数据的需求而创建的。这种方法对于目前来说是不够的,并且对于未来大数据应用的更严格的负担当然不可行。这样的实现仅仅支持这样的观念:集中的,关系精明的语义图解表示用于以管理数据为中心的需求的工业力量的融合。
必要的集中
从大数据的变革性可以看出,无论何处部署数据都可以提高业务价值。它的增长可以归因于业务加速,支持技术的新生态系统,以及企业中数据类型的多样性的快速发展。它只有单纯的市场力量,需要一个整体的手段来管理每个谨慎的组件转换数据到洞察行动。这些力量的影响是消除对现有基础设施简单地附加一些附加工具的需要。
相反,它强制要求简化企业架构,实施成本效益好的基础设施,用于包围企业的大量数据类型和技术,并且监督长期重用数据所需的组织范围治理和来源。如今的市场力量促成了对这种整体数据管理的需求同,而未来是强制性的。
文章标题:智能数据湖势在必行
文章分享:http://azwzsj.com/article/sddohi.html