费用节省 50%,函数计算 FC 助力分众传媒降本增效

来源: 云巴巴 2021-12-23 10:15:17

分众传媒诞生于 2003 年,创建了电梯媒体广告模式,2005 年成为首家在美国纳斯达克上市的中国广告传媒股,2015 年分众传媒回归 A 股,市值破千亿。分众传媒营收超百亿关键在于,抓住了【电梯】这个核心场景。电梯是城市的基础设施,电梯这个日常的生活场景代表着四个词:主流人群、必经、高频、低干扰,而这四个词正是今天引爆品牌的核心稀缺资源。

分众独有的价值是在主流城市主流人群必经的电梯空间中每天形成了高频次有效到达,从而形成了强大的品牌引爆的能力。分众电梯媒体,覆盖 3.1 亿中国城市主流消费人群,超过 260 万个电梯终端。除了电梯终端外,还会印发大量的广告海报,怎样确保这些静态资源的张贴效果,成为分众的重要业务指标之一。因此,分众自研了图片识别处理系统。当工作人员更换好海报后,会通过 APP 端拍照上传到后台服务端。而每个周末,静态海报会批量进行更换,后台系统就会迎来处理高峰,大概需要集中处理几百万张图片。工作日的时候,更换频次相对较低,后台系统就会相对空闲。周末和工作日的流量峰值平均相差 10 倍以上,如下图所示,如果按照周末的峰值保有资源,会导致工作日产生大量的闲置资源。

随着业务规模的增长,业务方对后台服务的弹性诉求也越来越强,怎样能让后台系统能更加从容应对波峰波谷,又能平衡资源开销成为最大的痛点。其实早在 2019 年年底,分众就接触了函数计算 FC,同时也在摸索容器的使用方式。经过一段时间的探索,发现函数计算的模式更适合业务的发展。对于业务方来讲,主要关注点在业务和算法,不想接触太多的底层基础设施概念,容器的上手门槛和后期维护要比函数计算更高一些。

函数计算的落地实践

分众最早是采用单体架构来处理图片识别功能,切到函数计算后,采用前后端分离的架构,后端部分使用 API 网关 + FC,使用 API 网关是为了规范化 API。但是当时 FC 的使用上也并不是一帆风顺,首先对函数计算 FC 的稳定性、易用性、性能等方面也有诸多疑虑,而 FC 当时也的确存在一些限制,比如:

  1. 没办法提供 CPU 使用率和内存使用率等监控;

  2. 最大规格只能提供 2C3GB,担心复杂算法下,2C 支撑不了算法的资源要求;

  3. 最大代码包支持 50MB,而图片识别算法动辄上 GB,最小的压缩包也有几百 MB;

  4. FC 没办法常驻进程,担心弹性效率不足,影响响应耗时。

经过和分众的沟通测试,发现 FC 运行原理和云主机其实是不一样的,一些担忧点都可以被解决。对于 FC,每个请求都可以独占实例资源,通过水平弹性扩展来承载大流量。比如同时有 10 个请求到 FC,那么 FC 就可以同时启动 10 个同规格的容器来运行请求,当前请求执行完后才会接下个请求,因此可以保障每个请求的 CPU 资源都是独占的,而且请求间还可以做到故障隔离。

经过实际测试,发现 2G/约 1.33C 的资源规格可以满足大部分的图片识别场景,部分操作如加水印,还可以缩减到 512MB/约 0.33C(最小规格 128MB 内存/约 0.1C),达到最佳的资源使用配比,以节省费用。而针对体积较大的算法包,通过挂 NAS 盘的方式,也可以解决。在弹性方面,函数计算可以做到百毫秒级的弹性伸缩(冷启动),对 APP 端的 API 接口,端到端平均响应大约在 300ms 左右,基本可以满足;对图片识别来讲,因为是异步调用,所以对延迟并不敏感。最终上线后,大致的业务架构如下:

经过一段时间的线上运行,函数计算比较好的承载了线上的业务,弹性能力和响应耗时基本都符合业务诉求。业务峰值的时候,会扩容 7K 多个容器实例同时处理图片识别,峰谷的时候,实例会自动回缩。相比之前云主机的使用方式,费用节省至少在 50% 以上。另外还有个显著的好处是,函数计算对发布部署效率的提升,发布时间大概缩短了一个数量级,而且更加便捷。之前采用云主机部署的方式,全量更新代码需要写脚本每台机器上运行一遍,而 FC 只用上传一次代码后,底层的机器会自动替换成最新的代码,业务还能不中断。

函数计算的优化升级

但是随着业务的不断发展,峰值处理图片的数量也在一直变大,一向稳如泰山的 FC 在业务高峰期,逐渐开始产生一些流控和超时的报错,如下图:

经过排查发现,原来 FC + NAS 挂载算法依赖的方式运行代码,在业务高峰时,会遇到带宽瓶颈,导致部分请求运行耗时变大,加剧了并发的消耗,最终导致被流控和运行超时。如监控显示,原来在 NAS 中放置的代码依赖大概有 1GB 多,当并发被陡然拉起时,大量的 FC 实例会去 NAS 加载依赖,造成网络拥堵。最直接的办法是直接升级 NAS 实例的带宽,但是治标不治本。而经过 1 年多的发展,函数计算也增加了非常多的实用功能,和分众沟通后,推荐直接用镜像的方式来部署。对比原先 ZIP 包的部署方式,会增加一步打镜像的操作,但是带来的收益更加明显,首先依赖包和业务代码可以一起部署维护,镜像的方式更加标准;另外也可以省掉 NAS 盘,降低了网络依赖和单点故障风险。

部署过程当中也面临另外个问题,镜像太大!Python 3.8 基础镜像接近 1GB,所有算法依赖接近 3GB,最终生成的镜像有 4.2GB。直接部署到 FC,冷启动过程当中单单加载镜像就要 1 分多钟,幸好 FC 提供了镜像加速能力,加载时间极大的缩短到了 10 秒左右,如下是加速效果的对比。

另外,FC 也支持了大规格实例,可以直接部署16C32GB大规格实例,对一些强依赖CPU资源的算法,也可以直接部署到FC上运行。还有个比较好的功能,是 FC 在可观测方面的增长,像之前提到的CPU和内存使用率,也都开放支持了。在服务配置功能里,开启实例级别的监控后,在函数的监控视图下,就可以看到实例的 CPU 使用率、内存使用率、网络带宽情况等。这个对对分众的业务来讲,非常有用,针对不同的图片处理算法,可以根据 CPU 使用情况,来调整 FC 运行的规格,可以最大化的平衡成本和性能。

总结和展望

  1. FC 在降本增效方面,有着非常不错的吸引力。尤其是对有波峰波谷和需要极速弹性的业务,是非常好的选型。另外像镜像部署、镜像加速、可观测等能力的增强,可以让分众更好的驾驭业务。

  2. FC 最近还发布支持了 GPU 挂载能力,在业界也是首创,对后续需要依赖 GPU 推理加速的算法模型,也是个不错的选择。利用 Serverless 弹性伸缩和按需付费的优势,可以大大降低 GPU "用不起" 的现状。

  3. 阿里云的 Serverless 不仅有函数计算平台,针对微服务应用,也在业界最先推出了 Serverless 应用引擎 SAE,对目前分众基于 K8s 部署的后台微服务也有着明显的优势:可以显著降低资源维护成本,提升整体研发效能,而且可以做到零代码改造平迁。后续会和分众一起探索微服务 On Serverless 的最佳实践。

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

互联网时代下,云安全发展会遇到什么样的新机遇?

互联网时代下,云安全发展会遇到什么样的新机遇?

安全是一个高速发展的行业,云安全人才是非常稀缺的,其市场价值也是非常明确的。未来几年是云安全行业高速发展的时刻,相信大家只要在这个行业不断地创新,解决不同的安全问题,都会得到较好的发展。

2022-11-24 10:00:49

对于私有云对应的相关的投入建议

对于私有云对应的相关的投入建议

只要人们分析失败的原因,积累丰富的经验,提高理性思维能力,化不利条件为有利因素,就能修正谬误,掌握真理,变失败为成功。那么本文,就对于私有云对应的相关的投入建议进行相关的阐述。 但就目前来看虽然有不少研究证明云计算架构确实可为机构用户创造相当多的效益。但

2022-11-21 15:23:04

全国首发!率先惠及百万中小微企业!

全国首发!率先惠及百万中小微企业!

7月17日,杭州市政府与蚂蚁集团签署战略合作协议,并现场发布全国首个蚂蚁区块链电子印章应用平台。 这一举措助力杭州近百万家中小微企业真正实现零见面审批、“一次都不跑”,切实优化城市营商环境。

2022-11-21 15:08:32

数据脱敏是否可以完全保障数据内部安全?

数据脱敏是否可以完全保障数据内部安全?

大数据时代,数据安全的重要性不言而喻。在进入信息时代开始,数据就意味着财富,谁能掌握数据,谁就能掌握用户习惯,就能掌握财富。所以数据安全只会越来越重要。

2022-11-23 10:22:17

不会运营私域流量?微联SCRM企微方案促留存、强转化

不会运营私域流量?微联SCRM企微方案促留存、强转化

在客户关系管理维护中,私域运营模式的实质其实就是通过私域,建立品牌与客户之间的强关系,提升用户对品牌的信任值,并且最终实现付费转化。

2023-05-06 17:22:45

多少个企业上云就会有多少种上云担忧吗

多少个企业上云就会有多少种上云担忧吗

随着新基础设施的飞速发展,越来越多的企业选择上云,云已成为安全的主战场。 面对“新基建倏地进展,将面临哪些新的安全挑战”这一话题,未来,企业上云又面临哪些问题?

2022-11-23 10:05:28

严选云产品

腾讯云TI-OCR训练平台 腾讯云TI-OCR训练平台,单模型支持多种类型任务,任务间能力互补。结构化指标更优,支持自然场景。优化文字纹理细节处理,支持布局、文字等多类模态信息输出。结构化&阅读理解,基于检索的知识库问答,支持信息抽取、文本摘要,具备较强的理解能力,应用于腾讯云官网封闭式问答场景中,阅读理解准确率大幅提升。
魔方网表 魔方网表,快速,灵活,响应企业高定制信息化需求的平台。适应管理对市场变化的快速反应的要求!无代码开发为主,兼顾低代码开发,已支持JS扩展,API支持任何语言扩展。
旷视科技Brain++ 新一代AI生产力平台 旷视Brain++是由旷视研究院自主研发的新一代 AI 生产力平台,致力于帮助企业和开发者提升AI生产效率、规范生产流程。Brain++的核心能力包括数据的处理、清洗和管理能力,算力的共享、调度和分布式能力,算法的训练、推理及部署能力。
优必选智慧康养全体系解决方案 优必选智慧康养全体系解决方案,让智能机器人走进千家万户,让人类的生活方式变得更加便捷化、智能化、人性化。以智能机器人为载体、人工智能技术为核心,打造“硬件+软件+服务+内容”的智能服务运营生态圈。
思科工业无线路由器IW3700系列接入点设备 IW3700系列设备基于思科卓越的传统射频技术,并采用专门生产的具有最佳射频架构的创新芯片组。该芯片组提 供工业和企业网络高密度接入体验,专为高性能的关键任务应用而设计。
J2L3x数字工作空间系统 接二连三( J2L3x )是一个数字工作空间,实现了跨 Web、移动和桌面的协作和交流,可帮助你提高日常工作效率。 在用户可控的私有环境中部署。资源归用户所有,归用户的系统管理员管理,资源可控。

甄选10000+数字化产品 为您免费使用

申请试用