大数据体系一般分为,数据采集、数据计算、数据服务、以及数据应用几大层次。
在数据采集层,主要分为日志采集和数据源数据同步,日志采集,根据产品的类型又有可以分为,浏览器页面的日志采集,客户端的日志采集浏览器页面采集。主要是收集页面的浏览日志(PV/UV等)和交互操作日志(操作事件),这些日志的采集,一般是在页面上植入标准的统计JS代码来进执行。但这个植入代码的过程,可以在页面功能开发阶段由开发同学手动写入,也可以在项目运行的时候,由服务器在相应页面请求的时候动态的植入。
事实上,统计JS在采集到数据之后,可以立即发送到数据中心,也可以进行适当的汇聚之后,延迟发送到数据中心,这个策略取决于不同场景的需求来定,页面日志在收集上来之后,需要在服务端进行一定的清晰和预处理,比如清洗假流量数据、识别攻击、数据的正常补全、无效数据的剔除、数据格式化、数据隔离等。
客户端日志采集,一般会开发专用统计SDK用于APP客户端的数据采集。客户端数据的采集。因为具有高度的业务特征,自定义要求比较高,因此除应用环境的一些基本数据以外。更多的是从“按事件”的角度来采集数据,比如点击事件、登陆事件、业务操作事件等等,基础数据可由SDK默认采集即可,其它事件由业务侧来定义后,按照规范调用SDK接口。
因为现在越来越多APP采用Hybrid方案,即H5与Native相结合的方式,因此对于日志采集来说。既涉及到H5页面的日志,也涉及到Native客户端上的日志,在这种情况下,可以分开采集分开发送,也可以将数据合并到一起之后再发送。常规情况下是推荐将H5上的数据往Native上合并,然后通过SDK统一的发送,这样的好处是既可以保证采集到的用户行为数据在行为链上是完整的,也可以通过SDK采取一些压缩处理方案来减少日志量,提高效率。
日志收集,还有很重要的一条原则就是“标准化”、“规范化”,只有采集的方式标准化、规范化,才能最大限度的减少收集成本。提高日志收集效率、更高效的实现接下来的统计计算。
以上,就是对大数据之数据采集的简单介绍。
更多产品了解
欢迎扫码加入云巴巴企业数字化交流服务群
产品交流、问题咨询、专业测评
都在这里!
2022-11-22 15:15:49
2022-11-21 14:44:06
2022-11-21 14:45:01
2022-11-21 14:43:40
2022-11-21 14:43:08
2022-11-21 14:46:17
甄选10000+数字化产品 为您免费使用
申请试用
评论列表