数据分析

大数据分析进入一个开源可能性的世界

连接,大数据和更大的挑战

智能设备网络的概念早在20世纪70年代就出现了。大约在1972年,蹦蹦马驹——一台计算机控制的自动售货机,在斯坦福大学赊销零食人工智能实验室,成为第一个互联网连接设备之一。有普遍的连接传奇 - 每个设备都被插入所有其他东西 - 创造2010年至2020年的定义趋势。事实上,墨貂的互联网预计将到大约260亿个单位,不包括PC,智能手机和平板电脑2020 - 也许在2020年将连接的这些物品的几个类别,目前甚至不存在。

物联网这将使网络连接爆炸式增长,也将创造价值——据一家全球咨询公司称,到2025年,这将带来多达6.2万亿美元的年收入。但它也将产生大量的数据——据估计,到2020年将产生40 zettabytes的数据。我们都知道,超过80%的大数据是非结构化的、动态的,在公司内外以各种形式和格式存在。

收集这些数据是一个巨大的挑战,但今天技术能力。这是下一步 - 从实时提取准确的洞察力并从中创建远见 - 即,企业尚未指甲。

分享即是学习

金融服务、电信、零售和保险等多个行业在整理、处理和分析大数据以得出可靠结果方面处于领先地位。更重要的是,他们有能力快速(如果不是实时的)得出这些见解。在电信行业,大数据分析通过预测哪些客户最有可能离开,使运营商能够更准确地定位促销活动,甚至通过搜索社交媒体对话来发现客户流失的迹象,从而帮助运营商降低了客户的高流失率。另一方面,保险公司已经成功地加快了理赔处理、改善了风险管理、根据预测行为为产品定价(想想基于驾驶模式的车险保费),并利用分析加快了报告生成的速度。然后是零售商,他们学会了利用手中的大量客户数据来识别客户行为、季节性趋势、补货周期、商品需求等等。另一方面,金融服务公司利用数据来量化风险,并向监管机构提供透明度——这反过来又极大地推动了运营效率。

请注意这些行业对大数据的使用有多么不同。它清楚地表明,在不同行业之间分享和交叉学习的巨大潜力,即使是在那些在分析方面取得进步的人之间。

你的问题是什么?

大数据分析中最大的课程之一是,它是企业与其数据和分析软件的企业和分析软件。定义 - 有时甚至发现 - 问题是洞察生成过程中最重要的部分。零售业与分析的成功欠嵌套问题,这是一系列问题,每个后续问题都关闭了问题。不幸的是,在快速分辨率的不耐烦中,大多数企业直接削减到一个问题的答案,他们尚未首先识别出来。对于他们而言,最佳情景的结果是对症的浮雕。

这正是像设计思维这样的新时代“发现问题”概念所寻求解决的问题。设计思维的首要目标是找到已知问题的根源,或者确定尚未被认识到的问题——尽可能接近业务现实。它通过建立(最终用户)可取性、(技术)可行性和(业务)可行性的简单的三步流程完成这一工作。

建立可取性的关键在于理解用户的需求,以及最终用户想要实现的目标。一个良好的可取性指标是一个人对最终用户的同理心程度——解决方案的创建者越有同理心,解决方案就越可取。

可行性基本上是将问题解决问题映射到技术能力的问题。企业知道解决有哪些问题以及如何在理论上解决它,但必须弄清楚是否有一种技术将在实践中进行。

活力决定了既可取的问题是否可取,可以在经济上具有高度吸引力。在这里,商业指标,例如可衡量的业务价值,成本与利益,投资期和投资回报率,发挥作用。

设计思维为企业提供了定义“什么”的机制。现在仍然是解决“如何”的挑战。

数据和数据湖的海洋

专有的统计工具已被证明在处理数以百万计的海量数据以获得洞察力和远见方面效用有限。他们行动迟缓,花费数百万美元的资本支出,最糟糕的是,不太容易改变或扩大范围。但是现在,开源技术给了我们一个非常有前途的选择。它的基础是数据湖的概念——“……一个存储库,在需要之前以原生格式保存大量原始数据。”正是这种数据结构、格式和最终目的上的缺乏刚性,使数据湖有别于世界上已知的任何存储方法,也使它能够克服专有统计分析工具的所有主要限制。

架构上,数据湖包括来自每个来源的数据中的Hadoop文件系统(HDFS)。因为它如此适应结构,所以数据湖不受约束为仅支持预定类型的分析问题解决;实际上,它可以在几乎没有额外的成本下无休止新的分析用例。与进入仓库和市场的数据不同,湖中的“开放”数据不需要整合努力;使用MapReduce和其他算法,企业可以快速处于途中。

最重要的是,数据湖以一种高度细粒度的“微数据”形式存储信息,这与许可的现有解决方案不同,后者聚合或预计算数据以加快分析,但最终会损害保真度。

相比之下,数据湖具有几乎无限的能力,可以在最优质的级别存储数据,以便在“权力”中,以便发言和精炼,并在意志添加信息。该数据被馈入开源软件,该软件可以通过任何数量的数据层运行,并且实际上在很短的时间内使用数量的数据。分析实时到达,是准确的,并且随着数据集变大而继续改善。

当企业想要解决某个特定问题时,只需将所需的数据从数据湖拉到数据基础上。这些数据——理想情况下应该具有高质量和粒度以提供准确的结果——现在存储在商品硬件上,如Amazon Web Servers、Azure或自定义构建的商品服务器。

分析或数据科学层坐在数据基础上。使用机器学习,数据科学家运行各种数学模型的统计分析,并使数据科学作为打包开源软件。最后,分析结果通过像Tableau等可视化软件以商业耗材表单呈现,或像D3这样的开源组件。

开辟可能性

开源技术在价值链的每个步骤中都有革命性的数据和分析,从数据存储到分析到可视化。从设计思考的角度来看,开源使​​每个方面都是理想的,可行和可行的:使得解决问题发现和解决方案的敏锐洞察力;无论数据有多大,都可以在技术上可行地提供准确的实时分析;降低数据存储成本,并急剧处理,使每个项目负担得起和可行。

由于开源投掷开放巨大可能性,其最大的挑战将是保证数据湖的安全,访问控制和治理。还有一个风险,数据湖无法思想地管理,最终可能会成为一个地方的数据筒仓聚合。行业观察者谨慎致力于培训用户在欣赏关键细微差别 - 数据捕获中的上下文偏见,数据集的不完整性,合并和协调不同的数据源,依此类推 - 这是一种静脉的任务。

虽然潜在的用户非常关注这些问题,但总的来说,他们对机会非常兴奋。同时,技术行业正试图通过制造此处讨论的所有开源功能来加速采用,以便在预制的企业就绪“开箱即用”格式中。全球办公自动化公司部署了这样一个解决方案来修复处理两百万记录到几秒钟的时间,从几十分钟开始。它现在能够使业务预测达到80%的准确性。所有这一切都处于投资中,这是专有统计分析工具成本的一小部分。开源技术使其能够简单地完成更少的更多。

下载文章