大数据到底应该如何学？大数据生态圈技术组件解析

发布时间：2020-09-23 06:09:03 所属栏目：模式来源：网络整理

导读：副标题#e# 这是一篇技术杂谈类的文章。下面是食用须知：本文适合还不十分了解大数据的你，同样适合不确定要不要学习大数据的你，将带你了解行业的需求以及与之相关的岗位，也同样适合刚刚踏入大数据领域工作的你，欢迎收藏并将文章分享给身边的朋友。笔

除了分析公司自身业务数据以外，同样可以打造一款通用的大数据产品，大家可以参考我的另一篇文章：如何用开源组件“攒”出一个大数据建模平台。所以大数据的岗位虽然不像普通的开发工程师那么多，但是需求依然存在。

如果是分析公司自身的业务数据，一般会更偏重于使用大数据组件和算法库，构建出一个可行的数据分析方案。大家可以看出，现在完全不涉及算法的大数据岗位已经比较少了。这里的算法指的并不是数据结构，而是指机器学习库，与数据挖掘相关的算法，至少要知道如何控制算法的输入与输出，算法能够解决的问题，可能不会涉及到亲自建模，在大数据分析的小节中会详细介绍。

如果是开发一个大数据产品，比如建模平台，或者是致力于解决数据采集、数据可视化的解决方案。那么这比较适合从开发工程师转行大数据开发工程师的小伙伴，相当于在开发一个应用的基础上又增加了底层的大数据组件。这就要求我们既需要懂得原始的服务端框架的那一套，又能够驾驭大数据开发API。

(5) 掌握技能

从事大数据开发需要掌握的技能可以概括为以下几个方面：

操作系统：Linux(基本操作、软件维护、权限管理、定时任务、简单Shell等) 编程语言：Java(主要)、Scala、Python等数据采集组件及中间件：Flume、Sqoop、Kafka、Logstash、Splunk等大数据集群核心组件：Hadoop、Hive、Impala、HBase、Spark(Core、SQL、Streaming、MLlib)、Flink、Zookeeper等素养要求：计算机或大数据相关专业

三、什么是大数据分析

说到数据分析师，这不是本文的重点，因为门槛相对较高，另一方面更偏数学、统计学方向，更多的是与数据、算法打交道，编程的产物通常不是应用，而是一个算法模型。我们还是先来看一看相关的JD：

小红书数据分析师JD

大数据到底应该如何学？大数据生态圈技术组件解析

(2) 京东数据分析师JD

大数据到底应该如何学？大数据生态圈技术组件解析

(3) 新浪微博数据分析师

大数据到底应该如何学？大数据生态圈技术组件解析

(4) 主要工作

如果说大数据开发的岗位需求是一条一条的话。。。那么数据分析师的岗位需求大概率是一篇一篇的。。。

从上面的要求的中可以看到，每一个岗位都讲业务场景介绍的很详细，毕竟，数据分析师的主要工作之一是建立算法模型，这是垂直领域的深耕。通常我们无法直接使用那些已经存在的算法，必须要进行评估、优化、或是组合使用。除此之外，你还必须拥有这一领域的业务经验，才能够很好的胜任。

(5) 掌握技能

算法工程师需要掌握的技能可以概括为以下几个方面：

编程语言：Python、R、SQL等建模工具：MATLAB、Mathematica等熟悉机器学习库及数据挖掘经典算法数学、统计学、计算机相关专业，对数据敏感

四、应如何学习大数据

上面介绍了和大数据相关的两个主要工作岗位，其实与大数据相关的岗位还有很多，真正归纳起来，ETL工程师也可以说擦边，因为随着数据量的不断增大，无论是****内部还是大数据服务公司都在从传统ETL工具向大数据集群进行过渡。

涉及到了这么多的技术点，如何学习才更加高效呢?首先好入门的自然是大数据开发，对于Linux的操作系统和编程语言的部分没什么过多说明的，不要觉得有些东西没用就跳过，有些时候编程思想和解决问题的方法同样很重要，课本上有的一定要扎实。对于和大数据相关的组件，看上去十分的繁杂，很多小伙伴可能都是钻研于每个组件的用法、算子、函数、API，这当然没有错，但是同时一定不要忘记埋在其中的主线，那就是：完整的数据分析流程。在学习的过程中一定要了解各组件的特点、区别和应用的数据场景。

1. 离线计算

在离线计算场景下，使用的都是历史数据，也就是不会再发生改变的数据。在数据源确定以后，这些数据不会再增加、也不会再更新，比较适合对实时性要求不高的场景。大多数情况下是周期性的计算某一个指标或执行一个Job，运算耗时基本上可以控制在分钟级。

数据源：数据文件、数据库中的数据等数据采集：Sqoop、HDFS数据上传、Hive数据导入等数据存储：HDFS 数据分析：MapReduce、Hive QL 计算结果：Hive结果表(HiveJDBC查询)、导出至关系型数据库

2. 实时计算

实时计算所面对的数据是不断的流入的，要能够使用合适的组件处理实时流入的数据。有些时候单位时间内的数据流入会比较多，消费的比较慢。有些时候单位时间内的数据流入会比较少，消费的会比较快。所以在采集数据时一方面要保证数据不丢失，同时还需要有中间件来管理好数据。在进行实时计算时可以使用微批次的方式也可以使用其他方式，同时要处理好计算结果合并的问题，实时展示最新的结果。

数据源：日志文件增量监听等数据采集：Flume 中间件：Kafka 数据分析：Spark-Streaming，Flink等计算结果：HBase

以上只是简单的列举了一些实现不同场景数据流程的组件整合方案，诣在告诉大家一定要善于发现和总结不同组件的特点，把合适的组件放在合适的位置，这也是面试官经常喜欢问的场景题目。

其实每个组件的使用方法和调用API并没有很复杂，重点还是在于流程化、一体化、把组件之间连接起来，不断的渗透和强化数据分析和处理的思路，能够把一个需求直接翻译成数据分析方案，这才是学习的重点。

（编辑：我爱故事小小网_铜陵站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页