使用AI的实战方法论：做好这5个流程

发布时间：2021-06-10 16:40:41 所属栏目：大数据来源：互联网

导读：根据Gartner的研究，大约37%的组织正在实施某种形式的人工智能。然而，根据安永(EY)的一项调查( https://www.technologyreview.com/s/611013/impact-ofai-on-business/)，只有大约20%的公司认为自己拥有战略人工智能能力。很少有组织能够成功地利用人工智能

根据Gartner的研究，大约37%的组织正在实施某种形式的人工智能。然而，根据安永(EY)的一项调查(

https://www.technologyreview.com/s/611013/impact-ofai-on-business/)，只有大约20%的公司认为自己拥有战略人工智能能力。很少有组织能够成功地利用人工智能的真正力量来产生有意义的影响。

如何利用人工智能?框架应该是什么?这篇由麦肯锡全球研究所MGI发表的论文推荐了组织需要关注的五个领域。

这些领域不是孤立的。它们是相互关联的。这些领域中的每一个都需要共同努力，才能产生明显的影响。

作为一名数据战略家有其优势。在本文中，我将详细说明实现这个框架的实际方法。

1. 识别正确的用例

当公司已决定踏上人工智能之旅。第一个任务是识别正确的用例。发散收敛法是一种行之有效的方法。头脑风暴来探索尽可能多的AI用例。一旦完成，聚合到前3个用例的候选列表。

如何聚合用例?探索的维度是什么

我建议以从下几个方面入手：

业务影响：这个用例有实际的业务影响吗?对其进行量化。
技术可行性：当前的技术环境是否支持此用例的实现?创建一个技术地图。
数据可用性：是否有相关的数据点可用来交付用例?探索这些。

在这三个维度上映射用例提供了一个关于什么可行，什么不可行的用例图。这方面的一个例子如下：

在上面的用例图中，用例#7和#6在三个维度上都得分很高。用例#3是下一个候选者，尽管它缺少所需的所有数据。

一个挥之不去的问题是：有多少数据是足够的

这个问题没有明确的答案。解决这个问题的经验法则是回答以下问题：

可用的数据是否足以构建最小可行模型

如果上述问题的答案是“是”，那么建议继续并考虑潜在开发的用例。

2. 构建高效的数据平台

数据是新的石油。这种新的石油扩散到整个公司。有必要从中提取价值。有必要对其进行改进。人工智能和数据有一种共生关系。他们需要彼此的繁荣和兴旺。

从远古时代起，各个公司就试图创建一个数据分析平台。企业数据仓库、数据集市、数据湖都试图驯服这头猛兽。随着数据技术的进一步发展，新的数据体系结构模式不断涌现。

2017年，我写了一篇博客：Demystifying Data Lake Architecture，强调了创建一个有用的人工智能数据平台的关键组件。此后，数据技术不断发展。然而，核心仍然是相同的。这些概念仍然可以应用。

然而，需要思考的问题如下:

利用人工智能的数据平台的原则是什么

以下是我的三条建议：

以原始格式存储所有数据：数据的性质比较复杂。一个人只有在使用它的时候才知道它的用法。最好的策略是将它们全部存储为它们自己的格式。没有转换。没有管理。只是原始的存储。随着云技术的出现，数据存储变得廉价。可以使用许多存储层选项。例如，在Azure中，人们可以在许多层(高级、热、冷、存档)中存储前50TB的数据，平均成本为0.044美元/GB/月，即4.4美元/TB/月(比一杯星巴克高杯摩卡还低)。作为指导原则，我建议至少在过去5年内存储数据。在此之后，如果发现无用，总是可以归档。
解耦存储和计算：存储是常年的。处理是短暂的。处理引擎可以是批处理的，也可以是面向流的。处理也可能是一项昂贵的操作。因此，按需处理是有意义的。根据所需的处理类型，创建适当的处理引擎。一旦任务完成，处理引擎就可以暂停或销毁。解耦计算和存储节省了大量成本。它还提供了很大的灵活性。一般来说，这是明智的做法。
分类目和管理数据：防止数据湖变成交换空间的一个最重要的原则是仔细地分类目和管理数据。作为一个经验法则，任何持久化的东西都会被编类目。主动编类目将使业务分析人员、数据科学家或任何希望以正确格式查找正确数据的人能够轻松地搜索数据元素。积极编类目的重要性再怎么强调也不为过。编类目和管理决定了数据分析平台的成败。

3. 采用正确的工具、过程和技术

第三部分是选择合适的工具和技术来实现AI。当然，有很多可用的工具来实现它。有三个基本原则对于人工智能的蓬勃发展至关重要。

利用规模：数据与人工智能之间存在相关关系。通常，需要训练的数据越多，就意味着模型越可用。在过去，训练模型的能力受到限制。存储和计算能力有限。在过去的20年里，存储和计算技术得到了发展。云计算平台正在创新。存储是便宜。计算是负担得起的。以可接受的成本进行大规模的数据处理和模型训练是可能的。过去的局限现在已不复存在了。
关注功能而不是技术：创建一个灵活的数据架构。每个组件都满足特定的功能。可用的技术特性不固定组件。功能是不变的，而技术是不断变化的。这是云平台的另一个好处。云平台创新。他们引进新技术，以更低的成本提供相同或更好的功能。
拥抱数据项目中的敏捷性：著名统计学家George Box曾打趣道：“所有模型都是错的，但有些模型是有用的。”得到那个有用的模型是一个迭代的过程。每次迭代都是向那个有用的模型迈进的一步。不要在AI项目中追求绝对。它不存在。完美的模型是乌托邦。以该模型为目标，它对于给定的上下文来说已经足够好了。

（编辑：咸宁站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

为何大数据为NFT创造了	未来已来 Cloudera拥抱
用Elastic Block Stor	从开始懂互联网到懂用