作为大一新生应该怎样认识大数据专业?

论坛 期权论坛 期权     
藝卿   2018-10-15 23:19   890   4
分享到 :
0 人收藏

4 个回复

倒序浏览
2#
laoji890  2级吧友 | 2018-10-15 23:19:06 发帖IP地址来自
谢谢邀请
要认清大数据专业,首先需要认清大数据。所以,我从客观认识大数据谈起。
[h1]一、大数据的三个层次和核心解读[/h1](一)三个层次和核心
我们将大数据分为三个层次。一是容量很大的数据,比如两个仓库都堆满了很多书,甲仓库的书全是大学二年级数学教材,乙仓库的为大学各类教材及其提升学生综合能力的各类图书,两仓库都满足了“大”的要求;二是大容量且有用的数据,比如对大学教学来说,肯定上述甲仓库的书几乎没用,而乙能满足这一要求;三是从中挖掘核心数据的强大能力,这个很考水平。
所以,大数据不能简单地理解为数据多,其核心是数据挖掘。挖掘数据则要涉及到云计算。这种如云般运算的能力与强度,实际上就是考验科技与研发人员的“认知”水准。
——摘自《新未来简史》一书

(二)对核心的解读
所谓数据挖掘(与传统定义有点不同),就通过对海量数据的交换、选择、整合和分析,发现新的知识,创造新的价值,带来"大知识"、"大科技"、"大利润"和"大发展"。
也就是,将海量数据最大化的、集约性的、多头性的运用于企业、社会、生活等等的各个方面,以创造最大的价值。
[h1]二、大数据的范围与深度认识[/h1](一)范围认知
如今通过物联网(或互联网)感知到的被人们称之为“大数据”的数据(主要指人类信息交换、信息存储、信息处理三方面能力大幅提升后,人与人、人与物之间所制造的数据),相对于万物在同一时刻所释放的所有数据来说,仅仅只是微不足道的“微数据”而已。(摘自《新未来简史》一书)

(二)深度认知
如今概念的“大数据”依然是很表面的数据,比如说“你挥挥手,几个简单的动作是‘表数据’,物联网能感知;而挥手动作之下,深入到分子、细胞与组织内,数以亿计的‘宏数据’不能被感知。‘表数据’构筑起如今的大数据概念,在此基础之上的物联网、算法与人工智能等,能量非常有限”。
上述文字摘自《新未来简史》一书,是该书提出的“未来12大定律或理论”之一,即“宏表数据理论”。
(三)与人工智能(AI)、物联网的关系
1、与AI的关系
比如AI中的“深度学习”(机器学习的内容之一),实际上是个老话题,如今很时髦的原因,主要是因为信息技术的发展让搜集“大数据”成为可能,机器训练有了足够多的样本。
诸如阿尔法狗的棋步算法、洛天依的声音合成,以及无人驾驶、人脸识别、网页搜索等等高级应用中用到的神秘兮兮的“深度学习”“增强学习”,乃至最具潜力的“对抗学习”及其对应的“深度神经网络”“卷积神经网络”“对抗神经网络”等 都与大数据有关。
(摘自《新未来简史》一书


2、与物联网的关系

物联网主要通过各种设备(比如RFID,传感器,二维码等)的接口将现实世界的物体连接到互联网上,或者使它们互相连接,以实现信息的传递和处理。
而且,由于物联网可连接大量不同的设备及装置(家用、生活、监测等各类电器和设备),嵌入在各个产品中的传感器(sensor)便会不断地将新数据上传至云端。这些新的数据以后可以被人工智能处理和分析,以生成所需要的信息并继续积累知识。
综上:
1、正是得益于大数据和云计算的支持,互联网才正在向物联网扩展,并进一步升级至体验更佳、解放生产力的人工智能时代。
2、对于人工智能而言,物联网(IoT)其实肩负了一个至关重要的任务:资料收集和传递。


[h1]三、大数据的联动分析(放入整个现代科技、现代社会体系下)[/h1]这是大数据产生联动价值的根源。
一、实际上:
数据实际上是个老掉了牙的东西。上古时期的结绳记事、以月之盈亏计算岁月,到后来部落内部以猎物、采摘多寡计算贡献,再到历朝历代的土地农田、人口粮食、马匹军队等各类事项都涉及到大量的数据。这些数据虽然越来越多、越来越大,但是,人们都未曾冠之以“大”字,那是什么事情让“数据”这瓶老酒突然换发了青春并如此时髦了起来呢?

当互联网开始进一步向外延伸,并与世上的很多物品链接之后,这些物体开始不停地将实时变化的各类数据传回到互联网并与人开始互动的时候,物联网诞生了。物联网是个大奇迹,被认为可能是继互联网之后人类最伟大的技术革命,是这样的吗?见“互联网将会这样被替代”章节详解。

如今,即便是一件物品被人感知到的几天内的各种动态数据,都足以与古代一个王国一年所收集的各类数据相匹抵,那物联网上数以万计亿计的物品呢?是不是数据大得不得了,于是“大数据”产生了。如此浩如云海的数据,如何分类提取和有效处理呢?这个需要强大的技术设计与运算能力,于是“云计算”产生了。其中的“技术设计”就归属于“算法”。“云计算”需要从天量数据中去挖掘有用的信息,于是“数据挖掘”产生了。这些被挖掘出来的有用信息去服务城市,就叫做“智慧城市”;去服务交通,就叫做“智慧交通”;去服务家庭,就叫做“智能家居”;去服务于医院,就叫做“智能医院”;去服务生活,就叫做“智能生活”……于是,智能社会产生了。不过,智能社会真正得以有序、有效运行,中间必须依托一个“桥梁”与工具,那就是“人工智能”。

这就是为什么,近几年时间内,诸如“人工智能”、“物联网”、“大数据”、“云计算”、“算法”、“数据挖掘”和“智能XX”这些高大上的时髦名词和概念,突然同时从地下冒了出来,原来它们都是“同一条线上拴着的蚂蚱”啊!

注意,万物大数据主要包括人与人、人与物、物与物三者相互作用所产生(制造)的大数据。 其中,人与人、人与物之间制造出来的数据,有少部分被感知;物与物之间制造出来的数据是根本没法被感知的。

对于人与人、人与物之间被感知到的那部分很小的数据(相对于万物释放的量来说非常小,但是绝对量却非常大),主要是指在2000年后,因为人类信息交换、信息存储、信息处理三方面能力的大幅增长而产生的数据,这个实际上就是我们日常所听到的“大数据”概念,这是以人为中心的狭义大数据,也是实用性(商业、监控或发展等使用)大数据。据估算,从1986年到2007年这20年间,人们每天可以通过既有信息通道交换的信息数量增长了约217倍,全球信息存储能力增加了约120倍。信息存储、处理等能力的增强为我们利用大数据提供了近乎无限的想象空间。
—————上文引用自《新未来简史:》 一书。
所以,诸如“人工智能”、“物联网”、“大数据”、“云计算”、“算法”、“数据挖掘”和“智能XX”这些高大上的时髦名词和概念,突然同时从地下冒了出来,原来它们都是“同一条线上拴着的蚂蚱”啊

[h1]四、对大数据认知的升级,即坚持三原则与一悖论(很重要)[/h1]坚持三原则:大数据不会过时,但绝对不是最热门,更不能神话它。
坚持一悖论即大数据悖论。
大数据悖论:提醒人们需避免陷入“数据主义”“数据宗教”等盲目崇拜的陷阱而失去理智。内涵:当大数据被少数人掌握并使用时,能产生奇效,但是,在竞争性领域,大数据被众人使用后,其效用将大打折扣,甚至引发破坏作用。——摘自《新未来简史》一书。
关于大数据悖论的深度认知,可参看《“大数据悖论”,几乎否决了《未来简史》立足的基石,以及否决了《今日简史》重大主题》,链接:
“大数据悖论”,几乎否决了《未来简史》立足的基石,以及否决了《今日简史》重大主题之一,大家怎么看?[h1]五、最后谈谈大数据专业[/h1](一)专业概况
大数据是门系统学科,基于数据,核心是数学算法,通过一些成熟平台架构组件,完成人们对数据的使用。平台架构组件不断在升级更新,学习要脚踏实地从基础开始,不要有一蹴而就的心态。
大数据专业主要从大数据应用三个层面设置相关课程与学习,即数据管理、系统开发、海量数据分析与挖掘。
从而让学习者系统地掌握大数据应用中的各种典型问题的解决办法,包括实现和分析协同过滤算法、运行和学习分类算法、分布式Hadoop集群的搭建和基准测试、分布式Hbase集群的搭建和基准测试、实现一个基于、Mapreduce的并行算法、部署Hive并实现一个的数据操作等等,实际提升企业解决实际问题的能力。

(二)主要专业设置
目前技术应用分大数据系统运维(系统平台管理hadoop基础、相关组件原理安装维护、Hbase/spark/kafka/zookeeper等等)
大数据数据分析(商务数据分析、可视化分析、R语言开发、数据挖掘等等)、
大数据数据采集(python爬虫技术、可视化爬虫开发等)、
大数据应用开发(hadoop各组件源码分析、mapReduce开发、spark开发、scala开发、R语言开发等等)。
具体如:1、大数据数据库及数据仓库;2、数据的抽取、清洗及预处理;3、大数据统计理论;4、大数据数据挖掘模型;5、大数据可视化技术实战;6、Spark大数据分析;7、Python大数据分析;8、JAVA基础编程;9、Hadoop平台搭建技术;等。
(三)细分专业选择的策略
1、大家都看好的,未必就好;
2、往往那些前瞻性更强,当前却比较冷僻的,或许才是最有前景的;
3、人生赢在格局与趋势,所谓“汝果欲学诗、功夫在诗外”!!!切记切记。
[h1]六、回答主要资料引用来源[/h1]上述回答主要引用来源于新锐畅销书《新未来简史》(与《今日简史》《未来简史》各有近100项相对立的观点,几乎涉及30多门前沿科技、学科与未来的推测与推断),如图:


3#
软硬件优化质控  3级会员 | 2018-10-15 23:19:07 发帖IP地址来自
最好怀疑老师的每一句话是不是说漏说偏说错了。我看到答案里有人把大数据里的某一种当成了所有大数据在乱下定义然后长篇大论,多长个心眼,祝好。真诚的。
4#
IT人刘俊明  4级常客 | 2018-10-15 23:19:08 发帖IP地址来自
认识大数据需要从多个不同的维度来分析。
首先要了解大数据的特点,分别是数据量大、价值密度低、速度快、数据结构多样性,这就是通常所说的大数据的4V。
如何来定义数据量大呢?数据量大有两个方面,一方面是数据的存量大,另一方面是不停的产生大量的数据。

大数据的数据来源于哪呢?答案是物联网,物联网本身采集数据的方式导致了数据量大,以及数据结构多样性的特点。
大数据有多快呢?由于需要在庞大的数据中查找目标,所以一定要快,大数据的响应速度都是秒级响应。
为什么说价值密度低呢?大数据系统会记录所有发生的事情,而我们关心的数据可能占比整个数据量很小一部分,这就是价值密度低的原因。大数据分析就像“淘金”一样,把有价值的内容提取出来。

其次,大数据目前已经形成了一个产业链,这个产业链包括数据采集、整理、传输、存储、安全、分析、呈现、应用,其中数据的采集涉及到物联网,数据的存储和安全涉及到云计算,所以大数据、物联网、云计算三者之间关系密切。
最后,大数据的目标是数据价值化,数据价值化的核心是数据分析。所以,大数据专业以数学、统计学、计算机为基础,其中数学和计算机对大数据来说是非常重要的,因为数据分析的核心在于算法的设计与实现。
大数据是我的主要研究方向,如果有相关的问题,也可以咨询我。
5#
Vampire王爵  2级吧友 | 2018-10-15 23:19:09 发帖IP地址来自
大数据专业是热门专业
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:
帖子:
精华:
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP