加入收藏

节省数千 GPU 卡资源,快手如何进行FinOps落地

2023-08-31 00:46:07 来源:互联网

早期,企业在云服务上进行了大量投入,但并非所有资金都得到了有效利用。企业不仅没有享受到云带来的成本红利,反而要面对更高的云账单。在控制云成本需求的促进下,FinOps 理念在国内快速发展,不少企业已经开始落地探索,其中就包括快手。

随着业务的快速发展,如何高效利用海量计算资源是摆在容器云编排调度引擎团队面前的重要问题。经过近期探索,该团队已经取得了初步进展:GPU 日均利用率提升 6~8 个百分点,为公司节省数千 GPU 卡资源。快手容器云编排调度引擎团队负责人张伟向 InfoQ 介绍了落地过程的具体实现。


(资料图片仅供参考)

内部实践

InfoQ:快手为什么要引入 FinOps 理念?内部成本问题体现在哪些方面?

张伟:快手整体的计算规模已达到数千万核,海量的计算资源要实现精细化的运营和高效的使用,已成为容器平台建设的重中之重。而 FinOps 理念从云成本管理角度,让技术团队更好的理解财务逻辑,感知技术成本,为公司级的降本增效提供了系统化的方法论,与我们的目标高度一致。快手希望能在 FinOps 的理论引导下,更有效的联合财务、平台技术研发和业务团队多方更快的实现提质增效的综合目标。

当前,我们在内部已建立了相对完善的容器资源 SKU 定价、货币化的预算与结算能力。目前内部成本问题仍体现在以下几方面:

资源需求持续快速增长,尤其是流量峰值期间资源需求高,而资源日均利用效率仍存在提升空间;

各类计算资源异构;且业务需求(如套餐)也呈多样化,使得资源管理的复杂度较高;

针对已逐步落地的优化效果,如何长效巩固各类降本提效措施,杜绝运动式治理的阶段性生效。

InfoQ:快手在 FinOps 实践方面都经过了哪些阶段?每个阶段主要做了哪些事情?

张伟:早期平台启步阶段中,主要由业务提交资源预算,由平台完成交付和保障,资源多采用独占方式使用。

此后进入降本增效的发力时期,我们建立完善的资源抽象模型,如在线 CPU+ 内存,混部 CPU+ 混部内存等不同 SKU,通过单独的定价和定制化的计费机制,实现货币化拆分。为达到成本优化的共同目标,业务方重点关注使用量优化减少浪费,而平台及基础设施层则通过迭代硬件、降低损耗、提升任务密度等手段来优化降低 SKU 单价。

当前阶段进入深化优化方案时期,建立了明确的预算内、预算外优化目标,通过拆解到多团队,借助流程规模、以及各类平台级技术手段持续提交,实现资源利用率不断逼近理论目标。

InfoQ:实践中如何对各部门进行绩效考核?

张伟:我们在内部建立了资源定价、预算、结算及各指标的观测跟踪等运营机制,落地实践中,针对各业务部门主要是通过资源用量、配额以及容器资源的实际使用率如峰均及日均数据来进行考核。而对于平台则重点会通过收支数据、资源日均等指标进行考核。

InfoQ:成本可视化方面,快手具体做了哪些工作?面向 FinOps 的利用率监控和传统的运维监控有什么区别?

张伟:快手内部针对成本建立了较为完善的度量和跟踪能力,会按月生成各业务线及各类平台的的收支帐单。同时针对资源在容器、宿主机多个维度跟踪了峰均、日均、时均及闲置、低利用率数据。

相比传统的利用率监控,我们关注的更多维度,首先是容器维度,代表业务层对已分配资源的使用效率,如业务容器内的峰均和日均使用率是核心项,它们衡量了业务实际利用水平。与此同时,宿主机维度的峰均和日均分布受配额执行率和平台资源超发能力的影响。此外,容器及主机维度的空闲率和低利用率也会是我们的关注和考核项。

InfoQ:成本优化方面,快手是从哪些方面着手的?具体是怎么做的?

张伟:快手内部的优化从预算内和预算外同时着手并行推进。引导业务及平台层推进各项治理活动。

对于业务侧,重点是从业务的结算成本维度进行顶层驱动,引导业务合理规划容量,压缩非必须的资源配额和用量。而对于各类平台,则通过整体的资源利用率等核心指标建立详细的规划,让平台自己围绕指标展开实施各类成优化的技术方案,包括如平台损耗、资源超发、在离线混部类措施。

而各类优化项均会在资源的定价或使用量上有所体现,并最终反馈到业务的结算成本上,我们会从对定价还是配额用量的影响来量化各自的贡献。

InfoQ:众多的云基础设施中,哪部分成本占比最多?针对这部分设施做了哪些优化工作?

张伟:我们所重点参与的主要还是快手内部的计算领域,相应部分 CPU 和 GPU 相应的成本整体最高。主要的优化工作还是围绕在业务高峰期以尽可能少的资源满足业务峰值场景下的资源需求,同时通过系列能力来削峰填谷,实现日均维度的利用率提升。

针对 CPU 资源,我们多角度出发分别落地了大量措施。在线场景下,我们建设了服务画像能力,基于实际利用率数据建立平台级的套餐推荐和动态超卖等能力,压缩业务侧使用浪费的情况。同时通过 CPU 在离线混部机制,基于存量进行资源的超发混部,实现二次售卖。

而对于 GPU 场景,则重点建设了 GPU 虚拟化分配能力,打破整卡分配限制,同样规模化应用了 GPU 的在离线混部,而支持近离线任务,从而实现整体成本的降低。此外针对低利用率场景的运营治理活动及限制也是重要的补充手段。

InfoQ:快手如何在 FinOps 商业产品和开源产品选择的?使用云厂商产品会不会产生“锁定”问题?

张伟:快手的 FinOps 相应的机制,目前还是以开源基础上进行自研定制为主。目前对于云厂商的产品使用,会综合成本和性能选择多个云厂商,目前并不局限在单一云厂商上。

经验分享

InfoQ:目前的 FinOps 落地处于哪个阶段?为什么?阻碍落地的因素有哪些?企业又该如何解决?

张伟:在 FinOps 落地过程中,可以理解主要有成本分析量化、执行成本优化和持续运营治理三个主要阶段。快手目前还第二、三阶段之间,已经通过包括套餐标准化及推荐、调度机制优化、在离线混部、GPU 虚拟化等系列平台级能力取得了一定的优化成果,将 CPU 及 GPU 日均利用率提升到了业界前列的水平,但基于总体量出发,仍有进一步收益空间。

我们现在主要重心投入的是包括在离线计算资源的统一调度和自由流转的相应能力。这个过程包括混合部署的业务稳定性提升、资源的精细化运营都是挑战。我们当前重点从长期主义出发,在资源抽象、调度框架上完成一致化的建设,再逐步由财务成本驱动实现最终的目标。

InfoQ:您认为,企业确保 FinOps 实践成功的关键是什么?有哪些经验可以分享?

张伟:要实现 FinOps 实践落地,首先需要建立一个合理的量化模型,并尽可能大的范围内取得相应的共识,尤其是让大家都有效的感知成本及目标。其次,持续优化迭代跟踪会是落地的重要保证。快手在执行 FinOps 实践时,首先从组织上,自上而下推动了各平台拉齐成本优化的目标设定。此外,在落地过程中,定期进行复盘对齐,保证整体收益和机制会成为长期有效的沉淀也会是关键所在。

在快手内的经验,我们会持续完善过程中的指标,如利用率维度,主机、逻辑核、基准核等各类维度的数据都会被关注。落地过程中,组织从上到下达成共识,会对预设的年度目标拆解到各个月,并在每月月末进行定期复盘和同步相应核心指标数据,从而来保障组织上的切实落地。

InfoQ:当下技术热点转变很快(如大模型落地),FinOps 降本增效实践还在持续进行中吗?您认为,FinOps 未来的发展会是怎样的?

张伟:快手降本增效实践仍在持续进行中,当前已迈入深水区,未来要实现收益还需要更为精细化的能力机制。考虑当前的整体算力体量,收益仍然是巨大的,我们从利用率等多维度设定了未来几年的建设目标,会持续迭代各类通用化的降本增效动作。

对于快手在 GPU 资源效率持续提升上的系统性建设,张伟将在9月3日-5日的Qcon全球软件开发大会上,带来《云原生时代下大规模 GPU 资源利用率优化最佳实践》的主题演讲,对此进行详细介绍,大家可以从中获取 AI 在线服务和离线训练分时复用算力资源的一些新思路。

活动推荐

QCon 全球软件开发大会·北京站, 9 月 3-5 日正式开幕!本次大会以「启航·AIGC 软件工程变革」为主题,130+ 名讲师现场分享近 30 个场精彩专题。更有 7 个主题演讲,免费对外直播!

咨询购票优惠信息可联系票务经理 18514549229(微信同手机号)。点击「阅读原文」即可查看 QCon 北京站完整日程,期待与各位开发者现场交流。

关键词:

相关新闻

资讯

华丽家族2023上半年净亏损1944万元,营收同比下降68%|中报速递
华丽家族2023上半年净亏损1944万元,营收同比下降68%|中报速递

乐居财经刘治颖8月30日,华丽家族(SH600503)发布2023......更多>

引导价值投资严控不当套利 减持新规将重塑A股文化
引导价值投资严控不当套利 减持新规将重塑A股文化

日前,证监会发布了三项政策,分别是优化IPO和再融资(......更多>

长沙2023年秋季优质住宅用地推介会举行!
长沙2023年秋季优质住宅用地推介会举行!

8月25日,长沙市举行2023年秋季优质住宅用地推介会,2......更多>

技术为王的比亚迪 赢麻了
技术为王的比亚迪 赢麻了

技术为王的比亚迪赢麻了...更多>

三部门发文:推动落实购买首套房贷款“认房不用认贷”政策措施
三部门发文:推动落实购买首套房贷款“认房不用认贷”政策措施

日前,住房城乡建设部、中国人民银行、金融监管总局联......更多>

90分钟互达 深汕西高速圆墩河特大桥合龙 预计明年通车
90分钟互达 深汕西高速圆墩河特大桥合龙 预计明年通车

深圳新闻网2023年8月29日讯(深圳特区报首席记者戴晓......更多>

*ST日海(002313)8月30日主力资金净卖出144.74万元
*ST日海(002313)8月30日主力资金净卖出144.74万元

截至2023年8月30日收盘,*ST日海(002313)报收于6 88......更多>

8月28日美国国债收益率整体下行
8月28日美国国债收益率整体下行

8月28日美国国债收益率整体下行。具体来看,美国国债......更多>

8.30收评|逢低吸纳才是王道!
8.30收评|逢低吸纳才是王道!

几大指数今天出现了震荡,昨天的普涨在今天并没有得到......更多>

关注

日韩股市高开
日韩股市高开
上证报中国证券网讯据Choice金融终端数据,8月30日开... 更多>
日韩股市高开
上证报中国证券网讯据Choice金融终端数据,8月30日开... 更多>
香港成立专责小组促进股票市场流动性 港股调减印花税呼声渐高
【香港成立专责小组促进股票市场流动性港股调减印花税... 更多>
南京路与鞍山道交口通行有变!天津中心城区首条并行掉头车道“上岗”
近日,公安交管部门经对南京路与鞍山道交口进行实地调... 更多>
亏损收窄,零跑也想卖技术挣钱 | 钛度车库
亏损收窄,零跑也想卖技术挣钱|钛度车库,零跑,钛度车... 更多>
港股午评︱两大指数高开高走均涨超2% 汽车、半导体等板块大涨
港股行情高开高走,香港恒生指数涨2 02%,恒生科技指... 更多>
江铃福特科技总裁刘继升:打造行业顶级户外越野生态圈 用“拳头”产品进军细分市场
在国内越野车市场热度持续攀升的情形下,携带多款硬核... 更多>
科普一下丨指甲上的月牙和身体健康有关吗?
近日,话题“为什么指甲上的月牙会这么大”冲上热搜,... 更多>
迦南科技:控股股东提前终止减持计划
迦南科技(300412)8月29日晚间公告,8月29日,公司接到... 更多>
青海祁连: 打通县域物流“最后一公里”
中国商务新闻网是商务部国际商报社主办,国家互联网信... 更多>
发布7月份工业企业利润数据
本报北京8月28日电(记者刘志强)国家统计局日前发布... 更多>
全国首个零售金融大模型——“天镜”发布
川渝频道,全国首个零售金融大模型天镜发布, 更多>
宣讲+服务,越秀区开展“送政策、送岗位”进军营活动
8月28日,广州市越秀区退役军人事务局走进驻地部队开... 更多>