一份详实的数据科学指南
发布时间:2021-05-22 21:32:43 所属栏目:大数据 来源:互联网
导读:如何计划学习?哪些主题应该首先涉及? 让我来解释一下100天学习数据科学的计划。下面是使用Python学习数据科学的逐日计划,该计划跨度为100天,每天至少需要花费一个小时 第一天:安装工具 只要确保安装了所需的工具,并且您对接下来几周/几个月将要使用的
如何计划学习?哪些主题应该首先涉及?
让我来解释一下100天学习数据科学的计划。下面是使用Python学习数据科学的逐日计划,该计划跨度为100天,每天至少需要花费一个小时
第一天:安装工具
只要确保安装了所需的工具,并且您对接下来几周/几个月将要使用的工具感到舒适即可。如果选择Python则安装Anaconda,其中还会安装IDEs Jupyter笔记本和Spyder。如果你选择' R ',然后安装RStudio。试着在IDE中玩一玩,并熟练地使用它。比如,尝试理解包/库的安装、执行部分代码、清理内存等等。
第2天到第7天:数据科学的基础编程
下一步是学习基本的编程,下面是一些应该学习的主题:
创建变量
字符串数据类型和通常在字符串数据类型上执行的操作
数值数据类型、布尔值和运算符
集合数据类型列表、元组、集合和字典——理解它们之间的唯一性和差异非常重要。
If-Then-Else条件,For循环和While循环实现
函数和Lambda函数-它们各自的优点和区别
第8天到第17天: Pandas 库
了解 Pandas 库,在 Pandas 中需要了解的一些主题是:
创建数据帧,从文件读取数据,并将数据帧写入文件
从数据框架中索引和选择数据
迭代和排序
聚合和分组
缺失值和缺失值的处理
Pandas 的重命名和替换
在数据帧中连接、合并和连接
总结分析,交叉表格,和枢轴
数据,分类和稀疏数据
花10天时间彻底学习以上主题,因为这些主题在执行探索性数据分析时非常有用。在介绍这些主题时,请尝试深入粒度细节,比如理解合并和连接、交叉表和枢轴之间的差异,这样不仅可以了解它们中的每一个,还可以知道在何时和何处使用它们。
我为什么要学 Pandas?如果您从事任何数据科学项目,它们总是从探索性数据分析开始,以便更好地理解数据,而您在 Pandas 中介绍的这些主题将会派上用场。另外,因为Pandas有助于从不同的来源和格式读取数据,所以它们速度快、效率高,还提供了对数据集执行各种操作的简单功能。
第18天到第22天:Numpy Library
学会 Pandas 之后,下一个需要学习的重要库是Numpy。学习Numpy的原因是与List相比它们非常快。在Numpy中要涉及的主题包括:
数组的创建
索引和切片
数据类型
连接与分离
搜索和排序
过滤所需的数据元素
为什么学习Numpy很重要?Numpy能够以快速和高效的方式对数据执行科学操作。它支持机器学习算法中常用的高效矩阵运算,panda库也广泛使用了Numpy。
第23天到第25天:可视化
现在,我们需要花一些时间来理解和使用一些关键的可视化库,比如ggplot、Plotly和Seaborn。使用示例数据集并尝试不同的可视化,如柱状图、线形/趋势图、盒状图、散点图、热图、饼状图、柱状图、气泡图和其他有趣的或交互式可视化。
![]() (编辑:常州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |