架构师机器学习系统手册 第一部分:机器学习系统操作与传统软件系统操作之间的挑战概述(以此为基础介绍有关不同挑战的章节) 软件1.0与软件2.0 我们该如何解决? 数据治理 第二部分:数据管道和ETL流程 第三部分:模型和数据的版本控制和治理-可复制性 由于缺乏可重复性而导致的危机 机器学习实验的版本控制i。 数据版本化ii。 模型版本控制 管理实验可重复性的工具i。 智者ii。 MLflow iii。 DVC iv。 达特莫 第四节:模型的弹性(回归测试和验证) 训练期间进行模型评估的测试 进行预测/评分时正在进行的模型评估测试 第五节:基于生产的部署 使用无服务器作为REST API部署模型 在手机上部署模型并进行维护-MLCore 在手机上使用Qualcomm SDK部署模型 流程管理产生的债务i。 生产中模型的版本控制(成熟6。系统可能同时运行数十个或数百个模型)ii。 气