Python是种高级动态编程语言,1991年,由Guido van Rossum创建发行。应用范围从Web开发到数据科学再到DevOps。 它注重简洁、易读性高、可拓展性强,尤其在数据科学领域,可以很好的支撑商业分析(探索性分析、数据可视化)、机器学习(数据清洗、算法建模)、深度学习(神经框架搭建)等场景。因此大部分的数据工作者愿意选用Python开展工作,数据分析新手也会考虑通过Python入门数据分析。
科赛kesci.com目前聚集了数万名数据人才,通过与他们的密切交流,我们发现:虽然Python本身对零基础数据分析新手非常友好,但他们中的大部分也曾面临过「数据分析从入门到放弃」的世纪难题。 分析背后的原因,归纳起来主要是: - 亲手搭建本地编程环境的繁琐工程量、过程中冒出的各种安装Bug,非常容易让初学者丧失学习兴趣(特别是非计算机相关专业出身的朋友);
- 面对网络公开分享的大量数据分析相关知识、学习教程,不知该如何甄别、筛选;
- 好不容易啃完教程、学会编程,发现当面对真实商业数据分析问题时,脑袋一片空白,无从下手。
但其实,我们都有机会让数据知识的学习、数据分析工具与人的交互体验变得更好一点。
Part1:零基础新手的必备基础知识Python在人工智能、机器学习领域受到火热追捧,很大程度上在于它拥有非常庞大的第三方库,以及强大的通用编程性能。因此,快速掌握Python进行数据分析,就是学习Python各种第三方库、工具包的过程。 对于新手,能掌握好:Python关键代码以及Pandas、Numpy、Matplotlib、Seaborn这四个基本工具包,便能独立完成一些简单的数据分析工作了。 说明:机器学习的Scikit-Learn相关学习材料我们正在搬运中,敬请期待!
Week1 学习内容:Pandas 说明:是个能快速简单实现数据操作、整合及可视化的工具库 - 科赛 x 机器之心 从零上手Python关键代码
- Pandas基础命令速查表
- 这十套练习,教你如何使用Pandas做数据分析
Week2 学习内容:Numpy 说明:是做科学计算最基础的库。针对n维向量及Numpy类型数组,提供了多种便于提升运算速度的功能 - Numpy快速上手指南-- 基础篇
- Numpy快速上手指南--- 进阶篇
- 这100道练习,带你玩转Numpy
Week3 学习内容:Matplotlib 说明:Matplotlib的设计理念是能够用轻松简单的方式生成强大的可视化效果,然而它是一个低端库,相比于其他高端的库,需要去写更多的代码来实现可视化效果。 - 从零开始学Python【1】--matplotlib(条形图)
- 从零开始学Python【2】--matplotlib(饼图)
- 从零开始学Python【3】--matplotlib(箱线图)
Week4 学习内容:Seaborn 说明:关注于统计模型的可视化,可以提供热力图等多种效果去描绘数据的整体分布情况。 - seaborn可视化学习之 categorial visualization
- seaborn可视化之timeseries & regression & heatmap
- seaborn可视化学习之distribution visualization
如何学习 - 就以上单个学习内容,可以在科赛完成登录后,直接点击「Fork」键即可将该项目内容收至个人K-Lab工作专区,点击「运行」键即可在K-Lab的交互式编程界面,体验「边敲代码边运行边掌握知识」的实践化学习场景。
- 我们在官网「项目」栏目里创建了「DATA TRAIN|数据分析学习计划」,后面会持续更新。
Part2:选择体验良好的数据分析编程环境我们都知道「工欲善其事,必先利其器」的重要性。这里必须隆重安利下:K-Lab在线数据分析协作平台。 零数据工程问题 K-Lab是款在线数据分析协作平台,用户在完成登录后均能拥有个人独享的K-Lab工作专区,免费享受2核8G的高性能云计算资源。 同时已经为你集成了Python3、Python2、R三种主流编程语言环境(随你挑选语言),同步内置100+常用数据分析工具包,可以直接调用。意味着你完成登录后,可以直接在云端学习编程语言,开展数据分析。 交互式编程设计 - 数据分析领域内,传统的集成开发环境(IDE)正被取代。Jupyter、JupyterLab和RStudio便是这一趋势的杰出例子。
- 计算型叙述正被广泛地创造出来。实时运行的代码、叙事性的文本和可视化将被整合在一起,方便数据工作者使用代码和数据来讲述故事。
K-Lab是提供基于Jupyter Notebook的在线数据分析服务,延续采用交互式编程的设计方法,让数据分析整个过程与结果统一。 Part3:用真实商业数据应用项目检验能力学习Python的最终目的,是为了掌握数据分析技能,拥有解决实际工作或日常生活中与数据分析相关问题的能力。 对于高等院校在校生以及期望转型为数据工作者的人群,行业内真实的生产级数据资源是难以获取的,企业内部数据化创新应用解决方案的学习案例是稀缺的。
因此,我们同步在科赛官网开放「金融行业数据算法训练营」,选用往期「前海征信“好信杯”大数据算法大赛」为案例,拆解出学习教程,为数据分析进阶爱好者提供真实行业数据实战检验。 看到这里,或许大家会想我并不懂金融咋办呢?其实我们已经考虑到了,该案例的优点就在于: - 数据资源非常丰富且开放使用。作为平安旗下专业第三方商业征信机构,提供了4万条信用贷款业务、4千条现金贷业务数据。
- 业务复杂度低,应用场景具有普适性。通过“信用贷款”业务,建立“现金贷”业务的信用评分模型”。非常容易理解,对金融业务理解要求低。
同时,我们配备作品在线提交及测评系统,将根据事先设定的「测评标准」进行排名并实时更新。方便你对自我数据分析能力进行合理评估,并持续优化、提升。
万事始行难,期待你的坚持与蜕变! |