加入收藏 | 设为首页 | 会员中心 | 我要投稿 我爱故事小小网_铜陵站长网 (http://www.0562zz.com/)- 视频终端、云渲染、应用安全、数据安全、安全管理!
当前位置: 首页 > 创业 > 模式 > 正文

大数据到底应该如何学?大数据生态圈技术组件解析

发布时间:2020-09-23 06:09:03 所属栏目:模式 来源:网络整理
导读:副标题#e# 这是一篇技术杂谈类的文章。 下面是食用须知: 本文适合还不十分了解大数据的你,同样适合不确定要不要学习大数据的你,将带你了解行业的需求以及与之相关的岗位,也同样适合刚刚踏入大数据领域工作的你,欢迎收藏并将文章分享给身边的朋友。 笔

除了分析公司自身业务数据以外,同样可以打造一款通用的大数据产品,大家可以参考我的另一篇文章:如何用开源组件“攒”出一个大数据建模平台。所以大数据的岗位虽然不像普通的开发工程师那么多,但是需求依然存在。

如果是分析公司自身的业务数据,一般会更偏重于使用大数据组件和算法库,构建出一个可行的数据分析方案。大家可以看出,现在完全不涉及算法的大数据岗位已经比较少了。这里的算法指的并不是数据结构,而是指机器学习库,与数据挖掘相关的算法,至少要知道如何控制算法的输入与输出,算法能够解决的问题,可能不会涉及到亲自建模,在大数据分析的小节中会详细介绍。

大数据到底应该如何学?大数据生态圈技术组件解析

如果是开发一个大数据产品,比如建模平台,或者是致力于解决数据采集、数据可视化的解决方案。那么这比较适合从开发工程师转行大数据开发工程师的小伙伴,相当于在开发一个应用的基础上又增加了底层的大数据组件。这就要求我们既需要懂得原始的服务端框架的那一套,又能够驾驭大数据开发API。

(5) 掌握技能

从事大数据开发需要掌握的技能可以概括为以下几个方面:

操作系统:Linux(基本操作、软件维护、权限管理、定时任务、简单Shell等) 编程语言:Java(主要)、Scala、Python等 数据采集组件及中间件:Flume、Sqoop、Kafka、Logstash、Splunk等 大数据集群核心组件:Hadoop、Hive、Impala、HBase、Spark(Core、SQL、Streaming、MLlib)、Flink、Zookeeper等 素养要求:计算机或大数据相关专业

三、什么是大数据分析

说到数据分析师,这不是本文的重点,因为门槛相对较高,另一方面更偏数学、统计学方向,更多的是与数据、算法打交道,编程的产物通常不是应用,而是一个算法模型。我们还是先来看一看相关的JD:

小红书数据分析师JD

大数据到底应该如何学?大数据生态圈技术组件解析

(2) 京东数据分析师JD

大数据到底应该如何学?大数据生态圈技术组件解析

(3) 新浪微博数据分析师

大数据到底应该如何学?大数据生态圈技术组件解析

(4) 主要工作

如果说大数据开发的岗位需求是一条一条的话。。。那么数据分析师的岗位需求大概率是一篇一篇的。。。

从上面的要求的中可以看到,每一个岗位都讲业务场景介绍的很详细,毕竟,数据分析师的主要工作之一是建立算法模型,这是垂直领域的深耕。通常我们无法直接使用那些已经存在的算法,必须要进行评估、优化、或是组合使用。除此之外,你还必须拥有这一领域的业务经验,才能够很好的胜任。

(5) 掌握技能

算法工程师需要掌握的技能可以概括为以下几个方面:

编程语言:Python、R、SQL等 建模工具:MATLAB、Mathematica等 熟悉机器学习库及数据挖掘经典算法 数学、统计学、计算机相关专业,对数据敏感

四、应如何学习大数据

上面介绍了和大数据相关的两个主要工作岗位,其实与大数据相关的岗位还有很多,真正归纳起来,ETL工程师也可以说擦边,因为随着数据量的不断增大,无论是****内部还是大数据服务公司都在从传统ETL工具向大数据集群进行过渡。

涉及到了这么多的技术点,如何学习才更加高效呢?首先好入门的自然是大数据开发,对于Linux的操作系统和编程语言的部分没什么过多说明的,不要觉得有些东西没用就跳过,有些时候编程思想和解决问题的方法同样很重要,课本上有的一定要扎实。对于和大数据相关的组件,看上去十分的繁杂,很多小伙伴可能都是钻研于每个组件的用法、算子、函数、API,这当然没有错,但是同时一定不要忘记埋在其中的主线,那就是:完整的数据分析流程。在学习的过程中一定要了解各组件的特点、区别和应用的数据场景。

1. 离线计算

在离线计算场景下,使用的都是历史数据,也就是不会再发生改变的数据。在数据源确定以后,这些数据不会再增加、也不会再更新,比较适合对实时性要求不高的场景。大多数情况下是周期性的计算某一个指标或执行一个Job,运算耗时基本上可以控制在分钟级。

数据源:数据文件、数据库中的数据等 数据采集:Sqoop、HDFS数据上传、Hive数据导入等 数据存储:HDFS 数据分析:MapReduce、Hive QL 计算结果:Hive结果表(HiveJDBC查询)、导出至关系型数据库

2. 实时计算

实时计算所面对的数据是不断的流入的,要能够使用合适的组件处理实时流入的数据。有些时候单位时间内的数据流入会比较多,消费的比较慢。有些时候单位时间内的数据流入会比较少,消费的会比较快。所以在采集数据时一方面要保证数据不丢失,同时还需要有中间件来管理好数据。在进行实时计算时可以使用微批次的方式也可以使用其他方式,同时要处理好计算结果合并的问题,实时展示最新的结果。

数据源:日志文件增量监听等 数据采集:Flume 中间件:Kafka 数据分析:Spark-Streaming,Flink等 计算结果:HBase

以上只是简单的列举了一些实现不同场景数据流程的组件整合方案,诣在告诉大家一定要善于发现和总结不同组件的特点,把合适的组件放在合适的位置,这也是面试官经常喜欢问的场景题目。

其实每个组件的使用方法和调用API并没有很复杂,重点还是在于流程化、一体化、把组件之间连接起来,不断的渗透和强化数据分析和处理的思路,能够把一个需求直接翻译成数据分析方案,这才是学习的重点。

  

(编辑:我爱故事小小网_铜陵站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读