数据智能

2023爱分析·数据科学与机器学习平台市场厂商评估报告:力维智联

数据科学与机器学习平台能支持并赋能企业各业务场景实现智能决策,帮助企业打造数据驱动型组织。

2023年10月10日
  • 数据智能

 

01 研究范围定义

研究范围
经济新常态下,如何对海量数据进行分析挖掘以支撑敏捷决策、适应市场的快速变化,正成为企业数字化转型的关键。机器学习算法能识别数据模型,基于规律完成学习、推理和决策,正广泛的应用在金融、消费品与零售、制造业、能源业、政府与公共服务等行业的各种业务场景中,如精准营销、智能风控、产品研发、设备监管、智能排产、流程优化等。企业传统的机器学习虽然能有效支撑业务决策,但由于严重依赖数据科学家,其技术门槛高、建模周期长的特点正成为企业实现数据驱动的阻碍。
数据科学与机器学习平台是指覆盖数据采集、数据探索、数据处理、特征工程、模型构建、模型训练、模型部署与发布、模型管理与运营等建模全流程的平台,提供一站式建模服务,能显著提升建模效率、降低建模门槛。数据科学与机器学习平台能支持并赋能企业各业务场景实现智能决策,帮助企业打造数据驱动型组织。
本报告对数据科学与机器学习平台市场进行重点研究,面向金融、消费品与零售、制造与能源、政府与公共服务等行业企业,以及人工智能软件与服务提供商的数据部门、业务部门负责人,通过对业务场景的需求定义和代表厂商的能力评估,为企业数据科学与机器学习平台的建设规划、厂商选型提供参考。
厂商入选标准
本次入选报告的厂商需同时符合以下条件:
  • 厂商的产品服务满足市场分析的厂商能力要求;
  • 近一年厂商具备一定数量以上的付费客户(参考第3章市场分析部分);
  • 近一年厂商在特定市场的收入达到指标要求(参考第3章市场分析部分)。

02 市场洞察

1. 2023年数据科学与机器学习平台市场规模达到55亿元

图1:2022-2026年数据科学与机器学习平台市场规模

据爱分析推测,2022年数据科学与机器学习平台市场规模为41亿元,2023年将达到55亿元,同比增长35%。未来爱分析测算2026年数据科学与机器学习平台市场规模将达到154亿元,2022-2026四年CAGR为40%。
未来几年,数据科学与机器学习平台市场的快速增长主要受AI大模型驱动。ChatGPT的爆火推升了企业对生成式大模型的认知,也提高了企业对AI解决方案的预算投入,数据科学与机器学习模型作为AI解决方案的基础设施建设,将与AI解决方案一起保持高速增长。
目前,数据科学与机器学习平台市场在金融、电信、互联网等行业渗透率最高;大中型企业正加速平台落地。
分行业来看,受数据体量和质量水平影响,数据科学与机器学习平台在金融、电信、互联网等行业渗透程度较高。大型企业均已通过采购或自建的方式搭建起数据科学与机器学习平台,中型企业也在加速部署落地。其次是政府机构,数据科学与机器学习平台在省级部门单位的渗透率逐渐提升。此外,数据科学与机器学习平台在零售、新能源、工业、医疗等行业的渗透率较低,其中大型企业尚处于引入、筹备阶段。
从企业规模来看,大中型企业的业务线条复杂、潜在AI应用场景数量可观,且自身技术人员储备充足,从长远来看,使自身具备AI建模能力是更持久、性价比也更高的方式,因此待数据条件成熟后大中型企业更倾向引入数据科学与机器学习平台;小型企业业务简单,技术人员有限,更倾向直接从算法商店直接购买成熟的AI算法部署实施,实现AI应用的快速验证,后续AI应用场景增多或是采购的算法不支持个性化业务场景时,才会考虑采购数据科学与机器学习平台。
2. 大模型将升级平台使用体验,成为厂商差异化竞争关键

AI大模型热潮激发大模型与千行百业的结合,大模型与数据科学与机器学习平台的融合已明确成为数据科学与机器学习平台的进化新方向。数据科学与机器学习平台厂商在功能上区别不明显,平台使用体验成为差异化关键,大模型与数据科学与机器学习平台的融合能有效改善平台使用体验,将成为厂商获取未来竞争优势的发力点。据爱分析调研,厂商对大模型与机器学习平台的融合实践路径主要基于以下三种形式展开:

图2:大模型与数据科学与机器学习平台融合形式

  • 通过预训练大模型进行智能标注,如应用CV大模型对图片、语义进行智能标注,高效生成训练数据。
  • 用大模型对业务创新思路进行快速初步验证。大模型的通用性使得它能快速给出结果,用户可先通过大模型验证业务思路后,再使用数据科学与机器学习平台开发训练小模型以保证模型效果和稳定性。
  • 通过大模型实现建模全流程智能化。既有的低代码建模仍需要人工拖拉拽进行配置,过程中也需要对算子细节进行设置,人工操作不可避免,而自动化建模方式下,缺少数据科学家的专业性,只能适用于分类、回归等简单的场景。大模型建模的理想愿景是实现用户通过自然语言与大模型互动,大模型可自动化完成数据准备、模型训练、模型部署全流程。在这个过程中,大模型会为用户提供数据科学家级别的专业引导。这一方式的落地难度系数极高,需完成包括不限于完成从自然语言(NLP)到数据处理(SQL)的转化、数据的图形化、建立模型训练知识库等过程。