实时计算的一些思考,实时计算思考
实时计算的一些思考,实时计算思考
实时处理过程的一些问题,有的是大促时候发现的,有的是规划data_eye这个数据产品时候想到的,拿出来和大家一起讨论下:
- 同一个topic的处理逻辑冗余,逻辑上还有运行资源上(日志处理这块资源开销较大)
- 数据处理口径差异性控制
- 同一数据源后续处理的耦合性,尤其是数据产品开发时候的发布一个topo,可能影响较大
借鉴了数据仓库设计的模型结构以及linkedin的Samza处理思想,可以考虑使用kafka这个组件做数据回流
处理后的数据以topic的形式对外服务。更新后的处理流程如下:
方案的优点:
评论暂时关闭