本次分享将介绍Linkedin derived data platform以及其如何帮助Linkedin更好的管理机器学习的结果数据集。 主要内容 Linkedin机器学习的基本流程,着重于如何将结果数据集应用于线上application,并阐述原有流程的痛点。 介绍derived data platform的整体设计以及几个关键技术点,例如如何合并批量和实时数据。 通过几个实例,例如数据标准化和相关性计算,来介绍derived data platformr如何存储海量结果数据集,并为线上application提供高可用,高性能的服务。 最后将总结在新平台上线和迁移过程中的一些经验,例如如何进行对用户无感知的迁移。