百度BigFlow.pdf
百度BigFlow.pdf综合介绍了百度的计算框架——百度BigFlow.pdf背景Baiding新一代分布式计算系引入 Apache统上线,单集群规模Baidu Bigalow对内Hadoop大规模机器学习平台达到10000Baidu bigelow立项发布200320082009201020112012201320142015分布式搜索系统分布式网页库,存储实时计算系统支持毫秒级全球首个ARM构架服务引入 Apache Spark网页规模超过1000亿时延,准实时计算系统严器规模化应用格不丢不重,时效性可达到20秒背景多引擎并存Baiding多个计算平台开发慢|使用繁|维护难背景跨引擎成本高Baiding一套逻辑,不断重写MapReduceSpark新的计算引擎(100× faster than套逻辑,同时维护离线计算实时计算提升时效性恢复故障数据、提升准确性背景升级困难BaidingBaidu mapReduce进化:>用户无感知:流式 Shuffle服务Mapper/ Reducer进程复用Native streaming用户感知,推广难度大:DAG拓扑支持多输入多输出与 Broadcas忮支持并发动态调节背景目标Baiding易写、易维护、易测试计算逻辑与引擎解耦·批量/流式计算统-高效背景BaidiNgProgram1 Program2 Program3Bigflow APIC+十Python Java4===m==飞表示层BiglowCoreTranslateLogical Plan1 i PlannerlillllillOptimize& Translate II计算引擎||TM‖ DStream Abaci spark ELFPhysical Plan(MR/DAG)(MPI)○ ptimize& ExecuteBigflow RuntimeC资源调度Normandy资源管理Matrix机器资源IDCAgendaBaiding背景基本抽象/接口统一离线/实时计算优化应用实践轴象- Nestable datasetBaidingPipeline:入口/分布式作业的抽象p=base Pipeline. create(ENGINE)MRPipeline/sparkPipelineDataset:分布式数据集抽象words=p read (input TextFile(/a/b/c))\flat map(lambda line: line split(t))有序/无序 by sort单元素/任意数量元素 by Aggregations(i per word cnt=words \>有穷/无穷 from source/ Windowgroup by (lambda word: word)\有/ Schemaapply values(count)\扁平/嵌套 by GroupingsflattenTransformations:变换全部惰式计算p write(word cnt, output TextFile(/a/b/e))prunoSideInpuf
暂无评论