DataVisor 维择科技创始人兼CEO 谢映莲,近日在《福布斯》上发表了她对大数据发展的看法。她认为,下一次大数据浪潮的驱动力不是集中数据的能力,而是集中智能的能力。“集中式智能”是指利用有效的工具优化企业各部门的工作流程,并利用先进的特征工程直接从原始数据中获取智能见解,输出可预测的决策。
以下为原文翻译
数据对于现代数字经济的运行至关重要。但是,单靠数据并不能自动转化为运营智能,也不能自动促进数字经济的繁荣发展。要在全球数字经济中取得成功,除了数据之外,还需要先进的运营工具和解决方案,从而大规模获得可行的、智能的洞察。
目前很多企业还处于使用大量集中数据驱动发展的阶段。然而,从数据安全和隐私保护的角度来看,我们应该从“集中式数据”向“集中式智能”过渡。
2015年,IBM指出:“当今世界90%的数据是在过去两年中创建的。”回顾这条数字化之路,我们提高了数据解读能力,创建了数据图表、图形和可视化,也增强了数据分析能力。为了在企业级利用这些能力,我们还开发了一种集中的数据分析方法,使企业和机构受益。
如今,随着AI、机器学习等革命性技术的迅速崛起,智能能力变得极其复杂,同时“集中式数据”与“集中式智能”之间也存在差距。在“集中数据”阶段,我们还在进行可视化的数据管理和数据分析解释,试图发现趋势并试图理解它们。当我们进入“集中智能”阶段时,意味着数据不仅停留在解释阶段,而且“集中智能”能够可预测地创造出可行的智能洞察,有效地采取大规模的实时行动。重要的是操作智能位于系统内部,并且是集中的。
什么是集中?集中化不是一个新概念。数据规模和复杂性的快速增长使得企业难以管理自己的信息。因此,企业倾向于关注团队、工具和流程。从表面上看,集中化代表了企业对大数据增长趋势的积极响应。许多企业为降低成本、提高效率做出了巨大努力,并取得了不同程度的成功。但实际上,部分企业仍停留在“集中数据”而非“集中智能”的阶段,“集中数据”的成本效益和效率效益仍然有限。
鉴于当今数字经济的需求,数据安全的压力和用户体验的竞争日益加剧。大数据智能已经成为现代最有价值的商品。但对于大多数企业来说,“集中式智能”仍然是一个遥不可及的目标,主要是因为很多企业普遍缺乏先进的特征工程能力。特征工程对于构建智能系统非常重要。特征可以从大数据中挖掘出可行的洞见,并将这些洞见转化为智能供AI算法使用,也就是说特征可以释放大数据的力量。
那么,为什么高级特征工程没有得到广泛应用呢?因为特征工程必须手动完成,所以这是一项复杂且耗时的任务。在应对各种业务挑战时,需要大量有效的功能来应对,这是一个难以克服的问题。
高质量特征的实时生成需要大量的专业知识,专家丰富的经验可以支撑特征工程输出特征的价值、适用性和相关性,也可以有效优化操作。此外,影响特征工程质量和效率的因素很多。例如,数据科学团队和特性工程团队需要在准备生产就绪代码之前进行详细的沟通;复杂功能的创建需要考虑可扩展性。大规模获取智能见解也需要大量记忆。先进的算法带来了极大的复杂性,数千个数据点被实时综合分析,过程中还需要大量的优化。
如果一个系统仍然依赖人工操作,系统就不能真正实现智能化。对于企业来说,提高模型性能、提高效率、优化灵活性和采取实时行动是非常重要的。同时,企业中不同团队的能力和独立性也非常重要。这意味着自动化和定制化之间的平衡至关重要。
如果某个领域的专业知识可以应用于处理特定的业务问题,这意味着一些标准化的特性有机会应用于自动化模型的构建。通过自动化的能力,可以直接从原始数据中获得新的特征。例如,在欺诈检测领域,影响检测准确性的关键特征是Ip地址。如果能够从原始数据的一个Ip地址中自动提取可用的特征,自动化能力、准确性和效率将大大提高。
高级特征工程本质上是“集中智能”在实践中的体现。因为它代表了一种从大量原始数据中提取可操作的智能意见的高效、大规模的能力,而这些智能意见可以对其他很多领域实时产生积极的影响。
重塑企业大数据系统既是一个纵向过程,也是一个横向过程。从纵向来看,“集中智能”的目标是让组织中的每个团队都能用数据做出贡献并获得智能见解。从横向来看,“集中式智能”需要在所有相关用例和业务场景中实现集中式智能风险控制的目标。
先进的实时特征工程可以推动企业的现代化进程,加速和优化企业的风险控制模式,从而保障数字经济更安全、更高效、更繁荣的发展。