大数据相关的技术可以分为:传输、存储、计算三大方面
-
基础框架
-
数据存储
- hbase:核心API、进阶、与Hive和MR集成、Phoenix集成
- kafka:命令行、API、企业级实战
- elasticsearch
- zookeeper
-
数据传输(数据交换、数据集成)
-
大数据调度:满足复杂大规模作业的调度场景
-
第三方or商业集成技术
- aliyun-bigdata:阿里云大数据(包括DataWorks、MaxCompute等)
- DataSphere Studio:微众开源一站式数据平台(DataSphere Studio)
- 计算中间件:linkis
- 数据交换:exchangis
-
其他框架
- StreamPark:原名StreamX,是一个流处理应用程序开发管理框架
-
环境搭建
- apache版本搭建
- CDH集群搭建
- HDP集群搭建
- DataSophon:快速部署、管理、监控、自动化运维大数据服务组件和节点,用于快速构建大数据集群
-
大数据建设
-
前沿
- 增强性数据分析
- 数据中台
- 数据湖
- 湖仓一体Lakehouse
- DataOps:数据工程化
-
其他
-
Apache版本: http://archive.apache.org/dist/
-
CDH5单个版本: http://archive.cloudera.com/cdh5/cdh/5/
-
清华Apache镜像: https://mirrors.tuna.tsinghua.edu.cn/apache/
- 《离线和实时大数据开发实战》-朱松岭
- 《Hadoop构建数据仓库实践》-王雪迎
- 《Hadoop技术内幕:深入解析YARN架构设计与实现原理》
- 《spark快速大数据分析(learning-spark)》: https://github.com/databricks/learning-spark
- 《Hive性能调优实战》-林志煌
- 《数据仓库》