Python和HDF 5大数据应用
扫一扫

下载掌阅iReader客户端

i3****526

i3****526

LV20 VIP 2018-06-12
大数据:数据采集系统
数据采集系统,就是将数据从数据源采集到能够支撑大数据架构环境中,从而实现数据的采集以便后期对数据的二次加工建立数据仓库。
大量数据的产生,在未被挖掘整合之前,其不但无效且还要占用资源。但一旦被发掘,数据的价值将无可估量。
电商应用场景:
当公司运营人员提出一个订单转化率的需求,作为产品人员,首先要确定分析订单转化率与哪些因素有关,最终确定从用户下单,支付这两个环节中分析,如:当月有多少用户提交了订单,之后有多少用户确认了订单,有多少用户最终支付订单等,最终呈现了漏斗形的分析主题。
对大数据进行分析时,就需要确定所需要的这些数据,要从哪些表获取,都需要获取哪些数据,获取到后要采集存储到哪个数据仓库的表中,最终被使用到。具体可梳理为以下业务流程:
1、确定主题,确定主题模型;
2、确定表和数据口径;
3、确定需要与目标的映射关系;
4、确定表与口径需要从哪些源下获取,以及如何数据更新的频率等。
1数据源配置:数据源
1.1数据源管理
1.1.1新增
1.1.2编辑
1.1.3删除
1.2源表管理:表结构的管理
1.2.1新增
1.2.2删除
2、映射配置



赞  
举报举报 收藏收藏

圈内热读榜

放大

确定删除该条回复么?

取消 删除

获取掌阅iReader

京ICP备11008516号(署)网出证(京)字第143号京ICP证090653号京公网安备11010502030452

2015 All Rights Reserved 掌阅科技股份有限公司 版权所有

不良信息举报:jubao@zhangyue.com 举报电话:010-59845699