听说你还不知道什么是大数据之数据采集

来源: 云巴巴 2022-11-21 14:45:29

 

    大数据体系一般分为,数据采集、数据计算、数据服务、以及数据应用几大层次。

    在数据采集层,主要分为日志采集和数据源数据同步,日志采集,根据产品的类型又有可以分为,浏览器页面的日志采集,客户端的日志采集浏览器页面采集。主要是收集页面的浏览日志(PV/UV等)和交互操作日志(操作事件),这些日志的采集,一般是在页面上植入标准的统计JS代码来进执行。但这个植入代码的过程,可以在页面功能开发阶段由开发同学手动写入,也可以在项目运行的时候,由服务器在相应页面请求的时候动态的植入。

    事实上,统计JS在采集到数据之后,可以立即发送到数据中心,也可以进行适当的汇聚之后,延迟发送到数据中心,这个策略取决于不同场景的需求来定,页面日志在收集上来之后,需要在服务端进行一定的清晰和预处理,比如清洗假流量数据、识别攻击、数据的正常补全、无效数据的剔除、数据格式化、数据隔离等。

    客户端日志采集,一般会开发专用统计SDK用于APP客户端的数据采集。客户端数据的采集。因为具有高度的业务特征,自定义要求比较高,因此除应用环境的一些基本数据以外。更多的是从“按事件”的角度来采集数据,比如点击事件、登陆事件、业务操作事件等等,基础数据可由SDK默认采集即可,其它事件由业务侧来定义后,按照规范调用SDK接口。

    因为现在越来越多APP采用Hybrid方案,即H5Native相结合的方式,因此对于日志采集来说。既涉及到H5页面的日志,也涉及到Native客户端上的日志,在这种情况下,可以分开采集分开发送,也可以将数据合并到一起之后再发送。常规情况下是推荐将H5上的数据往Native上合并,然后通过SDK统一的发送,这样的好处是既可以保证采集到的用户行为数据在行为链上是完整的,也可以通过SDK采取一些压缩处理方案来减少日志量,提高效率。

    日志收集,还有很重要的一条原则就是“标准化”、“规范化”,只有采集的方式标准化、规范化,才能最大限度的减少收集成本。提高日志收集效率、更高效的实现接下来的统计计算。

    以上,就是对大数据之数据采集的简单介绍。

 

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

简述现代科技下数据采集的相关思考

简述现代科技下数据采集的相关思考

我们每个人的信息,对于我们个人来说都是十分重要的,当学校,企业在做数据采集时,如何能做到高效性呢,下面就赶快跟随着小编的脚步一起,一起来看看这个问题的解决方案吧。 数据采集器也称为盘点机或者掌上移动电脑,它的主要特征是一体性和机动性,具有小巧的体型,较轻

2022-11-21 14:43:08

你了解数据采集技术是什么样的吗?

你了解数据采集技术是什么样的吗?

科技是一直向前发展的,这就少不了创新精神,数据采集技术就是科技创新下的产物,不得不说,有创新精神的人不仅能聚集财富,还能建立职业,适应社会,甚至获得不菲的成就,当然,有更好的输入,才有更好的输出,下面,我就介绍一下传说中的主流数据采集技术是什么。 产品采

2022-11-21 14:43:33

浅谈如何使用日志采集工具进行数据采集

浅谈如何使用日志采集工具进行数据采集

本文,我们来看日志采集,为什么要做日志采集呢?日志采集最大的作用,就是通过分析用户访问情况。提升系统的性能,从而提高系统承载量,及时发现系统承载瓶颈,也可以方便技术人员基于用户实际的访问情况进行优化。 日志采集也是运维人员的重要工作之一,那么日志都包括哪

2022-11-21 14:45:01

简析三款常用的数据采集抓取工具

简析三款常用的数据采集抓取工具

现在来说,不管是工作还是学习,都少不了使用电脑,互联网数据采集技术即现代信息采集技术系统的升级版,可有效解决之前数据采集技术现在所面临四大安全威胁。要建立完善的安全防护体系,必须从信息采集软件客户端、服务器端等提供商等各个方面采取相应的技术措施。本篇文章,

2022-11-21 14:46:17

如何运用数据源进行采集数据呢?

如何运用数据源进行采集数据呢?

上篇文章中,知道了有四类数据源,不记得的小伙伴可以去回顾一下哦。那如何采集到这些数据呢?本篇文章,就赶快跟随者小编的步伐,一起来看一下有关于如何运用数据源进行采集数据的相关知识吧。 如何使用开放数据源进行采集数据,我们先来看下开放数据源,教你个方法,开放

2022-11-21 14:45:22

有关于数据采集的相关实例的介绍

有关于数据采集的相关实例的介绍

你可能没有进行过数据采集,但是你一定在网脑或电视中见到过。本篇文章,就跟随着小编的脚步一起来看一下有关于数据采集的相关知识吧。 系统实例,在一些工业现场中,设备长时间运行容易出现故障,为了监控这些设备,通常利用数据采集装置采集他们运行时的数据并送给PC机

2022-11-21 14:43:59

严选云产品

道一云家校通平台 道一云家校通平台,基础信息维护:学生信息、班主任信息、班级管理、学期等数据填写。 成绩录入、排名管理、成绩条发放。 家访记录填写,缴费通知、学校通知。API接口完全开放,打破数据隔离,打通外部系统实现双向同步,应用灵活拓展,快速补齐现有系统短板。
考试星院校招生考试全流程解决方案 考试星帮助企业搭建稳定高效的全流程在线考试体系,满足招生考试、培训考试、竞赛活动、招聘考试等多种考试场景。
万户软件企业数字办公平台 万户软件企业数字办公平台,平台基于微服务架构设计,支持容器部署,可支撑企业未来5-10年数字化规划;同时平台支持集团化架构,共享共用,并且融入智能化技术,助力用户办公提质增效。
极验行为验证4.0 极验行为验证4.0利用适应型第四代验证技术让验行为获得更安全的能力,7重动态屏障应对不同的攻击模式,更能单位周期内多达43 74种变化,大幅提升黑产攻击成本较上一代产品,黑产绝对攻击成本最高上升3.714倍。行为验拥有扩展性极强的界面,并兼容所有平台 除此之外,我们为其调试了顺畅自然的动画效果。
光云快麦小智电商智能客服机器人 光云快麦小智电商智能客服机器人,为电商卖家提供一体化的智能客服解决方案,扎根智能客服,打造电商数字化的人机智能协同伙伴。售前/中/后全链路精细化场景,多次多策略触达。
网宿科技CDN直播分发 通过全局负载均衡系统、私有流媒体传输协议等专有技术,为客户提供快速、稳定、安全的端到端直播加速服务, 保障终端用户低时延、高流畅的视听体验。

甄选10000+数字化产品 为您免费使用

申请试用