怎样进行大数据的入门级学习？

提示: 作者被禁止或删除内容自动屏蔽

千锋教育上海 · 2018-9-28 00:21:35

　　大数据入门教程，大数据的火热就业季，无论是前景还是薪资都弥漫着诱惑的气息，不少计算机专业的小伙伴果断转了大数据方向，但对于专业不是计算机的小伙伴也想成为大数据工程师怎么办呢?即使去全程面授的千锋学习，也是需要自己有一定的贮备知识的。
　　那大数据的入门教程都应该学习哪些技术知识呢?今天小编就针对想转行学习大数据的小伙伴做一个小小的入门计划!

　　很多人都知道学习大数据是需要一定的基础的，那这些基础都有什么呢?其一编程语言是必备条件之一。无论你是学习java还是学习Python语言还是其他编程语言，总之精细掌握一门编程语言是必须的，我们先拿应用广泛的java学科来说起吧!
　　首先大家先了解一下Java的方向有JavaSE、JavaEE、JavaME，学习大数据要学习那个方向呢?
　　只需要学习Java的标准版JavaSE就可以了，像Servlet、JSP、Tomcat、Struts、Spring、Hibernate，Mybatis都是JavaEE方向的技术在大数据技术里用到的并不多，只需要了解就可以了，当然Java怎么连接数据库还是要知道的，像JDBC一定要掌握一下，有同学说Hibernate或Mybites也能连接数据库啊，为什么不学习一下，我这里不是说学这些不好，而是说学这些可能会用你很多时间，到末后工作中也不常用，我还没看到谁做大数据处理用到这两个东西的，当然你的精力很充足的话，可以学学Hibernate或Mybites的原理，不要只学API，这样可以增加你对Java操作数据库的理解，因为这两个技术的核心就是Java的反射加上JDBC的各种使用。
　　其次是Linux：因为大数据相关软件都是在Linux上运行的，所以Linux要学习的扎实一些，学好Linux对你迅速掌握大数据相关技术会有很大的帮助，能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置，能少踩很多坑，学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。

楚涵 · 2018-9-28 00:21:36

分享下大数据学习的路线图，希望对各有有帮助。
　　大数据指不用随机分析法这样捷径，而采用所有数据进行分析处理的方法。互联网时代每个企业每天都要产生庞大的数据，对数据进行储存，对有效的数据进行挖掘分析并应用需要依赖于大数据开发。
　　阶段一、Linux&&Hadoop生态体系
　　1、Linux大纲
　　1) Linux的介绍，Linux的安装：VMware Workstation虚拟软件安装过程、CentOS虚拟机安装过程
　　2) 了解机架服务器，采用真实机架服务器部署linux
　　3) Linux的常用命令：常用命令的介绍、常用命令的使用和练习
　　4) Linux系统进程管理基本原理及相关管理工具如ps、pkill、top、htop等的使用;
　　5) Linux启动流程，运行级别详解，chkconfig详解
　　6) VI、VIM编辑器：VI、VIM编辑器的介绍、VI、VIM扥使用和常用快捷键
　　7) Linux用户和组账户管理：用户的管理、组管理
　　8) Linux磁盘管理，lvm逻辑卷，nfs详解
　　9) Linux系统文件权限管理：文件权限介绍、文件权限的操作
　　10) Linux的RPM软件包管理：RPM包的介绍、RPM安装、卸载等操作
　　11) yum命令，yum源搭建
　　12) Linux网络：Linux网络的介绍、Linux网络的配置和维护
　　13) Shell编程：Shell的介绍、Shell脚本的编写
　　14) Linux上常见软件的安装：安装JDK、安装Tomcat、安装mysql,web项目部署
　　2、大型网站高并发处理
　　1) 第四层负载均衡
　　a) Lvs负载均衡
　　i. 负载算法，NAT模式，直接路由模式(DR)，隧道模式(TUN)
　　b) F5负载均衡器介绍
　　2) 第七层负载均衡
　　a) Nginx
　　b) Apache
　　3) Tomcat、jvm优化提高并发量
　　4) 缓存优化
　　a) Java缓存框架
　　i. Oscache，ehcacheb) 缓存数据库
　　i. Redis，Memcached
　　5) Lvs+nginx+tomcat+redis|memcache构建二层负载均衡千万并发处理
　　6) Haproxy
　　7) Fastdfs小文件独立存储管理
　　8) Redis缓存系统
　　a) Redis基本使用
　　b) Redis sentinel高可用
　　c) Redis好友推荐算法
　　3、Lucene课程
　　1) Lucene介绍
　　2) Lucene 倒排索引原理
　　3) 建索引 IndexWriter
　　4) 搜索 IndexSearcher
　　5) Query
　　6) Sort和过滤 (filter)
　　7) 索引优化和高亮
　　4、Solr课程
　　1) 什么是solr
　　2) 为什么工程中要使用solr
　　3) Solr的原理
　　4) 如何在tomcat中运行solr
　　5) 如何利用solr进行索引与搜索
　　6) solr的各种查询
　　7) solr的Filter
　　8) solr的排序
　　9) solr的高亮
　　10) solr的某个域统计
　　11) solr的范围统计
　　12) solrcloud集群搭建
　　5、Hadoop离线计算大纲
　　1) Hadoop生态环境介绍
　　2) Hadoop云计算中的位置和关系
　　3) 国内外Hadoop应用案例介绍
　　4) Hadoop 概念、版本、历史
　　5) Hadoop 核心组成介绍及hdfs、mapreduce 体系结构
　　6) Hadoop 的集群结构
　　7) Hadoop 伪分布的详细安装步骤
　　8) 通过命令行和浏览器观察hadoop
　　9) HDFS底层工作原理
　　10) HDFS datanode,namenode详解
　　11) Hdfs shell
　　12) Hdfs java api
　　13) Mapreduce四个阶段介绍
　　14) Writable
　　15) InputSplit和OutputSplit
　　16) Maptask
　　17) Shuffle：Sort，Partitioner，Group,Combiner
　　18) Reducer
　　19) 二次排序
　　20) 倒排序索引
　　21) 最优路径
　　22) 电信数据挖掘之-----移动轨迹预测分析(中国棱镜计划)
　　23) 社交好友推荐算法
　　24) 互联网精准广告推送算法
　　25) 阿里巴巴天池大数据竞赛《天猫推荐算法》案例
　　26) Mapreduce实战pagerank算法
　　27) Hadoop2.x集群结构体系介绍
　　28) Hadoop2.x集群搭建
　　29) NameNode的高可用性(HA)
　　30) HDFS Federation
　　31) ResourceManager 的高可用性(HA)
　　32) Hadoop集群常见问题和解决方法
　　33) Hadoop集群管理
　　6、分布式数据库Hbase
　　1) HBase与RDBMS的对比
　　2) 数据模型
　　3) 系统架构
　　4) HBase上的MapReduce
　　5) 表的设计
　　6) 集群的搭建过程讲解
　　7) 集群的监控
　　8) 集群的管理
　　9) HBase Shell以及演示
　　10) Hbase 树形表设计
　　11) Hbase 一对多和多对多表设计
　　12) Hbase 微博案例
　　13) Hbase 订单案例
　　14) Hbase表级优化
　　15) Hbase 写数据优化
　　16) Hbase 读数据优化
　　7、数据仓库Hive
　　1) 数据仓库基础知识
　　2) Hive定义
　　3) Hive体系结构简介
　　4) Hive集群
　　5) 客户端简介
　　6) HiveQL定义
　　7) HiveQL与SQL的比较
　　8) 数据类型
　　9) 外部表和分区表
　　10) ddl与CLI客户端演示
　　11) dml与CLI客户端演示
　　12) select与CLI客户端演示
　　13) Operators 和 functions与CLI客户端演示
　　14) Hive server2 与jdbc
　　15) 用户自定义函数(UDF 和 UDAF)的开发与演示
　　16) Hive 优化
　　8、数据迁移工具Sqoop
　　1) 介绍和配置Sqoop
　　2) Sqoop shell使用
　　3) Sqoop-importa) DBMS-hdfsb) DBMS-hivec) DBMS-hbase
　　4) Sqoop-export
　　9、Flume分布式日志框架
　　1) flume简介-基础知识
　　2) flume安装与测试
　　3) flume部署方式
　　4) flume source相关配置及测试
　　5) flume sink相关配置及测试
　　6) flume selector 相关配置与案例分析
　　7) flume Sink Processors相关配置和案例分析
　　8) flume Interceptors相关配置和案例分析
　　9) flume AVRO Client开发
　　10) flume 和kafka 的整合
　　10、Zookeeper开发
　　1) Zookeeper java api开发
　　2) Zookeeper rmi高可用分布式集群开发
　　3) Zookeeper redis高可用监控实现
　　4) Netty 异步io通信框架
　　5) Zookeeper实现netty分布式架构的高可用
　　11、某一线公司的真实项目
　　项目技术架构体系：
　　a) Web项目和云计算项目的整合
　　b) Flume通过avro实时收集web项目中的日志
　　c) 数据的ETL
　　d) Hive 批量 sql执行
　　e) Hive 自定义函数
　　f) Hive和hbase整合。
　　g) Hbase 数据支持 sql查询分析
　　h) Mapreduce数据挖掘
　　i) Hbase dao处理
　　j) Sqoop 在项目中的使用。
　　k) Mapreduce 定时调用和监控
　　阶段二、大数据计算框架体系
　　1、Storm基础
　　Storm是什么
　　Storm架构分析
　　Storm编程模型、Tuple源码、并发度分析
　　Maven环境快速搭建
　　Storm WordCount案例及常用Api
　　Storm+Kafka+Redis业务指标计算
　　Storm集群安装部署
　　Storm源码下载编译
　　2、Storm原理
　　Storm集群启动及源码分析
　　Storm任务提交及源码分析
　　Storm数据发送流程分析
　　Strom通信机制分析浅谈
　　Storm消息容错机制及源码分析
　　Storm多stream项目分析
　　Storm Trident和传感器数据
　　实时趋势分析
　　Storm DRPC(分布式远程调用)介绍
　　Storm DRPC实战讲解
　　编写自己的流式任务执行框架
　　3、消息队列kafka
　　消息队列是什么
　　kafka核心组件
　　kafka集群部署实战及常用命令
　　kafka配置文件梳理
　　kafka JavaApi学习
　　kafka文件存储机制分析
　　kafka的分布与订阅
　　kafka使用zookeeper进行协调管理
　　4、Redis
　　nosql介绍
　　redis介绍
　　redis安装
　　客户端连接
　　redis的数据功能
　　redis持久化
　　redis应用案例
　　5、zookeper
　　Zookeeper简介
　　Zookeeper集群部署
　　zookeeper核心工作机制
　　Zookeeper命令行操作
　　Zookeeper客户端API
　　Zookeeper应用案例
　　Zookeeper原理补充
　　6、日志告警系统项目实战
　　需求分析
　　架构及功能设计
　　数据采集功能开发及常见问题
　　数据库模型设计及开发
　　Storm程序设计及功能开发
　　集成测试及运行
　　优化升级及常见问题
　　7、猜你喜欢推荐系统实战
　　推荐系统基础知识
　　推荐系统开发流程分析
　　mahout协同过滤Api使用
　　Java推荐引擎开发实战
　　推荐系统集成运行
　　阶段三、云计算体系
　　1、Docker 课程
　　基本介绍
　　vm docker 对比
　　docker基本架构介绍
　　unfs cgroup namespace
　　进程虚拟化轻量级虚拟化
　　docker 安装
　　docker 镜像制作
　　docker 常用命令
　　docker 镜像迁移
　　docker pipework(i.openvswitch)
　　docker weave
　　2、ReactJS框架
　　虚拟化介绍，虚拟化适用场景等等
　　Qemu Libvirt & KVM
　　安装KVM, Qemu, Libvirt
　　QEMU-KVM: 安装第一个能上网的虚拟机
　　Kvm虚拟机 nat,网桥基本原理
　　kvm虚拟机克隆
　　kvm虚拟机vnc配置
　　kvm虚拟机扩展磁盘空间
　　Kvm快照
　　Kvm 迁移
　　Java,python,c语言编程控制kvm
　　构建自己的虚拟云平台
　　3、AngularJS框架
　　openstack介绍和模块基本原理分析
　　openstack多节点安装部署(a.采用centos6.x系统)
　　Keystone基本原理
　　glance
　　Cinder
　　Swift
　　Neutron
　　Openstack api 二次开发
　　阶段四、机器学习&&深度学习
　　1、R语言&&机器学习
　　1) R语言介绍，基本函数，数据类型
　　2) 线性回归
　　3) 朴素贝叶斯聚类
　　4) 决策树分类
　　5) k均值聚类
　　a) 离群点检测
　　6) 关联规则探索
　　7) 神经网络
　　2、Mahout机器学习
　　1) 介绍为什么使用它,它的前景
　　a) 简单介绍Mahout
　　b) 简单介绍机器学习
　　c) 实例演示Mahout单机推荐程序
　　2) 配置安装(hadoop2.x版本的)编译安装步骤说明
　　a) 命令行中测试运行协同过滤概念
　　3) 推荐
　　a) 讲解基于用户的协同过滤
　　b) 讲解基于物品的协同过滤
　　4) 分类
　　a) 分类概念
　　b) 分类的应用及Mahout分类优势
　　c) 分类和聚类、推荐的区别
　　d) 分类工作原理
　　e) 分类中概念术语
　　f) 分类项目工作流
　　g) 如何定义预测变量
　　h) 线性分类器的介绍，及贝叶斯分类器
　　i) 决策树分类器的介绍，及随机森林分类器
　　j) 如何使用贝叶斯分类器和随机森林分类器的代码展示
　　5) 聚类
　　a) 聚类概念
　　b) 聚类步骤流程
　　c) 聚类中的距离测度
　　d) 讲解K-means聚类
　　e) K-means聚类算法展示
　　f) 聚类其他算法
　　g) 介绍TF-IDF
　　h) 归一化
　　i) 微博聚类案例
　　3、项目实战
　　项目技术架构体系：
　　a) 分布式平台 Hadoop，MapReduce
　　b) 数据采集 Flume
　　c) 数据清洗 ETL
　　d) 数据库 Hbase，Redis
　　e) 机器学习 Mahout

需要大数据学习资料的可以私信我。

Nikocai · 2018-9-28 00:21:37

一、Excel起步
作为一个入门级工具，Excel是快速分析数据的理想工具，也能创建供内部使用的数据图。
二、SQL起步
如果你了解SQL，说明你已经具备了更快速提升的基础。
三、R语言起步
作为用来分析大数据集的统计组件包，R是一个非常复杂的工具，掌握R意味着你比其他IT专业人士可以更快上手一些专业分析工具和服务。
四、Python起步
五、MySQL起步
六、微软SQL Server起步
七、Tableau起步
八、Java起步
九、PostgreSQL起步
十、Visual Basic起步

大数据 · 2018-9-28 00:21:38

大数据的入门课程包括java，linux，mysql的课程。柠檬学院官网-大数据在线培训_专业IT新技术在线教育机构

王天鹏 · 2018-9-28 00:21:39

1、原始数据要经过一连串收集、提取、清洗、整理等等的预处理过程，才能形成高质量的数据；

　　2、我们想看看数据“长什么样”，有什么特点和规律；

　　3、按照自己的需要，比如要对数据贴标签分类，或者预测，或者想要从大量复杂的数据中提取有价值的且不易发现的信息，都要对数据建模，得到output。

　　这三个步骤未必严谨，每个大步骤下面可能依问题的不同也会有不同的小步骤，但按我这几年的经验来看，按照这个大思路走，数据一般不会做跑偏。

　　这样看来，数据科学其实就是门复合型的技术，既然是技术就从编程语言谈起吧，为了简练，只说说R和Python。但既然是荐数据科学方面的书，我这里就不提R/Python编程基础之类的书了，直接上跟数据科学相关的。

高阔 · 2018-9-28 00:21:40

天善学院里面有一套 Hadoop 入门及其基础学习【连载更新中】人民日报的大数据专家录制的课程，免费的，我自己看了一下挺不错的。，感兴趣的可以学习一下。推荐给大家。

胆怯蛮人 · 2018-9-28 00:21:42

找一个大数据方面的高手一起学习，比如周涛等

王磊 · 2018-9-28 00:21:43

不要自答：
我是一个自学的java SE 后报大数据系统班学习的，他们的自学太难的，不懂的问这问难的，答案都是不一样，自学对人信息打击太大了，后来跟班学习，感觉真心的不错，现在分享下我现在学习路线，文笔有点差，往不要见怪：
大数据现在市场上的可以分为以下岗位：

大数据技术都包括哪些，如何学习大数据技术。首先我们要了解Java语言和Linux操作系统，这两个是学习大数据的基础，学习的顺序不分前后。

给大数推荐一个大数据学习群：点击“我要学习”就可以进去了

Java：只要了解一些基础即可，做大数据不需要很深的Java技术，即使不懂Java也可以学习大数据。
Linux：因为大数据相关软件都是在Linux上运行的，所以Linux要学习的扎实一些，学好Linux对你快速掌握大数据相关技术会有很大的帮助，能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置，能少踩很多坑，学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。

好说完基础了，再说说还需要学习哪些大数据技术，可以按我写的顺序学下去。
大数据的学习技术点
Hadoop核心
(1) 分布式存储基石：HDFS
HDFS简介入门演示构成及工作原理解析：数据块，NameNode, DataNode、数据写入与读取过程、数据复制、HA方案、文件类型、 HDFS常用设置 Java API代码演示
(2) 分布式计算基础：MapReduce
MapReduce简介、编程模型、Java API 介绍、编程案例介绍、MapReduce调优
(3) Hadoop集群资源管家：YARN
YARN基本架构资源调度过程调度算法 YARN上的计算框架
离线计算
(1) 离线日志收集利器：Flume
Flume简介核心组件介绍 Flume实例：日志收集、适宜场景、常见问题
(2) 离线批处理必备工具：Hive
Hive在大数据平台里的定位、总体架构、使用场景之Access Log分析 Hive DDL&DML介绍视图函数（内置，窗口，自定义函数）表的分区、分桶和抽样优化
(3) 速度更快的Hive：Impala
Impala在大数据架构中的角色架构数据处理过程一般使用步骤：创建表，分区表，查询等常用查询演示：统计，连接等、Impala与Hive的比较常用配置与最佳使用建议（查错，调优等）
(4) 更快更强更好用的MR：Spark
Scala&Spark简介基础 Spark编程（计算模型RDD、算子Transformation和Actions的使用、使用Spark制作倒排索引）Spark SQL和DataFrame 实例：使用Spark SQL统计页面PV和UV
实时计算

(1) 流数据集成神器：Kafka

Kafka简介构成及工作原理解析 4组核心API 生态圈代码演示：生产并消费行为日志

(2) 实时计算引擎：Spark Streaming

Spark Streaming简介工作原理解剖编写Streaming程序的一般过程如何部署Streaming程序？如何监控Streaming程序？性能调优

(3) 海量数据高速存取数据库：HBase

HBase简介架构及基本组件 HBase Table设计 HBase基本操作访问HBase的几种方式

大数据ETL

(1) ETL神器：Sqoop，Kettle

数据同步ETL介绍 Kettle常用组件介绍、抽取Mysql数据到Hive实战 Sqoop介绍、抽取Hive数据到Mysql实战

(2) 任务调度双星：Oozie，Azkaban

ETL与计算任务的统一管理和调度简介 Crontab调度的方案自研调度系统的方案开源系统Oozie和Azkaban 方案总结与经验分享

大数据应用与数据挖掘

(1) 大数据全文检索引擎：Elasticsearch

全文检索基础知识，ES安装及初级介绍，ES深入理解，使用经验介绍

(2) 数据仓库搭建

为什么要构建大数据平台大数据平台的的经典架构深入剖析“五横一纵”的架构实践知名互联网公司大数据平台架构简介

(3) 数据可视化

什么是数据可视化，数据可视化常用工具与必备技能介，Tableau和ECharts实操讲解 ECharts介绍，知名互金公司可视化经验介绍

(4) 算法介绍

介绍数据挖掘，机器学习，深度学习的区别，R语言和python的介绍，逻辑回归算法的介绍与应用，以及主要的推荐算法介绍
学习是不断渐进的学习，不断去学习别人的代码思想了，给大数推荐一个大数据学习群：点击“我要学习”就可以进去了，进群以后会得到不一样的东西，

悠悠 · 2018-9-28 00:21:44

想要《Hadoop核心组件的安装与配置》等学习资料吗？加我好友我发给你。631744453

怎样进行大数据的入门级学习？

9 个回复