不同企业对数据科学与机器学习平台的需求不同,其差异取决于企业自身机器学习建模能力和对算法 的需求。
除大型金融机构外,传统企业普遍不具备机器学习建模能力。大型金融机构数据科学团队人才完善, 对机器学习算法的探索和应用更前沿,如将机器学习模型应用在精准营销、智能风控、产品研发、客 户体验管理等多个场景中。但更多的传统企业面临 IT 人才缺失、尚未开始智能化应用或处于局部试验 的初期阶段。传统企业对数据科学与机器学习平台的需求主要体现在以下五个方面:

1)降低机器学习建模门槛,使非专业建模人员也能掌握机器学习建模技术,赋能业务。传统机器 学习建模技术门槛高,需要组建专门的数据科学团队,包括数据工程师、数据科学家、开发工程师 等,人力成本高昂。传统企业希望能降低机器学习建模门槛,如平台能实现数据自动处理、自动特 征工程、图形化建模或自动建模等功能,使非专业的业务人员也能快速开展建模工作,广泛赋能业 务,实现普惠 AI。
2)提供定制化算法、模型部署和运营服务,快速创造业务价值。传统行业多具备行业特性,行业垂 直场景下的模型开发耗时耗力,而且传统企业对 AI 智能应用的探索尚处于初期,更倾向“小步快 跑”,因此购买定制化算法能节约人力、实现快速产出以及验证 AI 智能应用效果。企业需要厂商提 供定制化算法服务、模型在硬件平台和操作系统平台的部署服务以及模型运营服务。
3)缩短建模周期,提高业务敏捷响应度。以金融行业为例,金融企业的产品、服务、风控模型均需 随着客户行为改变而持续迭代更新。但传统的机器学习建模周期长达数月,无法敏捷响应业务需求。 企业需要数据科学与机器学习平台内置丰富的行业算法、模型模板、案例等,供建模人员直接调用, 加速模型训练;或是提供一键部署功能,实现模型在生产环境的快速部署。 4)提供咨询服务,提升模型质量。对于具备一定机器学习建模能力的金融机构,需要厂商提供建 模咨询支持,协助企业完成数据准备、模型训练、模型部署等环节,提升模型质量。 5)支持国产化适配。以金融、政府、电信为代表的行业,其底层软硬件基础设施已经基本实现国产 化,厂商需支持平台对国产软硬件的兼容、适配。
对于中小企业或是刚开始试点智能应用的企业,相较于数据科学与机器学习平台需要的组织、人才、 流程上的变革与支持,采购适用于特定场景的 AI 智能应用是性价比更高、更迅捷的解决方案。人工智 能软件与服务商如算法服务商、ISV 即面向此类需求,提供模型和智能应用服务。以算法服务商为例,尽管具备专业的数据科学团队,但中小型企业的算法需求多样且个性化,如虽然都是 AI 视觉算法,智 慧城市、智慧工业下的应用场景如安全帽识别、产品瑕疵识别的模型却截然不同,需要基于业务数据 集、业务思路分别进行训练。这使得算法服务商常常面临严格的算法交付周期和算法精度要求。具体 而言,人工智能软件与服务提供商对数据科学与机器学习平台的核心需求主要体现在以下四个方面:

1)提高机器学习建模效率。软件开发公司、算法提供商面临严格的交付周期,但在传统 AI 应用开 发方式下,数据接入、数据处理、模型训练等一系列建模流程都需要人工操作,建模周期长。其中 数据接入环节因开源算法工具对不同类型的数据兼容性较差,需人工将原始数据转化为开源算法所 支持的数据类型;数据标注环节往往通过人工完成,并且部分领域的标注过程严重依赖专业知识, 整体数据准备将耗费数周时间;模型部署中对模型的集成、监控和更新需要大量的调研和实施工作, 单个模型部署到上线需要 3-5 个月。企业需要完善的数据科学工具和建模功能,支持实现数据采集、 数据准备、特征工程、模型训练、模型部署等建模全流程,提高建模效率。
2)满足数据科学家复杂场景建模需求。平台需支持数据科学家在复杂场景下进行灵活建模,如提 供丰富的算法,预置主流机器学习框架,支持 NoteBook 建模方式,以及支持数据科学家在模型训 练中手动调参等。 3)对模型开发资源和计算资源进行统一管理,支持计算资源弹性扩容,加速建模计算性能。传统 开发模式中重复建设严重,如各项目数据准备、特征工程、模型训练等各自研发,造成模型开发管 理资源、计算资源浪费,难以适应大规模智能应用开发需求。另外,机器学习模型训练过程中耗费 大量计算资源,而一旦结束训练,计算资源又处于闲置状态。企业需要实现计算资源弹性扩容,满 足模型开发不同阶段的计算需求。 4)为多角色的数据科学团队提供协作平台。机器学习建模过程需要数据工程师、数据科学家、数 据分析师等多角色共同协作完成,存在反复沟通、协作流程不明确等问题,带来重复性工作。