机器学习 100 天 初学者完整指南

2023年 9月 21日 63.0k 0

机器学习是广泛的人工智能领域中一个快速发展的领域。它涉及开发可以自动从数据中学习模式和见解的算法,而无需显式编程。近年来,随着企业发现机器学习在推动创新、改进决策和获得竞争优势方面的潜力,机器学习变得越来越受欢迎。

无论您是刚刚开始探索机器学习,还是已经精通该主题,都有许多资源可以帮助你在这个令人兴奋的领域学习和成长。本指南旨在作为您的旅程的路线图,提供基础知识概述并为您指明更高级的主题和资源的方向。

第 1 – 10 天:线性代数

机器学习之旅的前 10 天应该侧重于理解线性代数的基础知识。你应该首先学习不同类型的线性方程、矩阵、数学运算及其应用。你还应该熟悉线性代数中使用的关键概念和术语。以下是线性代数中要涵盖的关键主题:

  • 线性方程组
  • 矩阵运算
    • 加法、乘法和除法
    • 转置
  • 矩阵的性质
  • 使用高斯消元法求解线性方程
  • 线性方程的 LU 分解
  • 行梯队形式
  • 行列式
  • 特征值和特征向量
  • 特征空间
  • 正交和正交向量
  • 特征分解
  • 对角化
  • 奇异值分解——实现
  • 矩阵近似
  • 向量运算
  • 差异化
  • 最小值和最大值
  • 曲线下面积

第 11 – 20 天:统计

在对线性代数及其运算有充分的了解之后,是时候在统计方面向前迈出一步以处理数据了。充分了解统计知识最终将有助于您在机器学习之旅中进行数据分析、建模和评估。统计学在机器学习中有很多应用,例如数据探索和预处理、特征选择、模型选择和评估、不确定性估计等。所以让我们深入探讨统计学的核心:

  • 均值、标准差和方差—实施
  • 描述性统计
  • 描述性统计和推论性统计
  • 概率论与分布
    • 正态分布
    • 二项分布
    • 均匀分布
  • 抽样分布的类型
    • 自由程度
    • Z 测试
    • t检验
    • 卡方检验
  • 线性回归
  • 样本误差和真实误差
  • 偏差与方差及其权衡
  • 假设检验
  • 置信区间
  • 相关性和协方差
  • 相关系数
  • 协方差矩阵
  • 皮尔逊相关系数
  • Spearman 等级相关性测度
  • 肯德尔等级相关性测度
  • 稳健的相关性
  • 最大似然估计

第 21 天 – 27 Python 编程

为了实现机器学习技术,人们需要了解一种设备可以理解的语言,而 Python 就可以发挥作用。每当需要选择编程语言时,第一个跳出来的语言就是PYTHON。它可以通过多种方式用于机器学习,例如数据预处理和操作、构建机器学习模型、数据可视化等。

要学习 Python 编程,您应该具备以下主题的知识:

  • Python 基础知识
    • 数据类型
    • 表达式
    • 变量
    • 字符串方法
  • Python 数据结构
    • 列表和元组
    • 字典
  • Python 编程基础
    • 条件语句
    • 循环语句
    • 功能
      • 用户定义函数
      • 内置功能
    • 对象和类
  • 在 Python 中处理数据
    • 使用Python读取文件
    • 在 Python 中写入文件
    • 用于数据处理的 Pandas
    • 用于加载数据的 NumPy 数组

第 28 – 45 天:数据预处理和可视化

必须理解数据预处理和可视化的重要性。这些过程有助于准备数据以进行分析并检测有助于塑造模型的模式和趋势。建议您熟悉数据清理、数据规范化和数据转换等技术。此外,学习如何使用Matplotlib和Seaborn等可视化工具来表示数据并从中获得有价值的见解也至关重要。

Python 中的数据处理和可视化库

  • 数值模拟
  • 熊猫
  • Matplotlib
  • 西博恩

数据预处理:

  • 数据预处理简介
  • 数据清理
  • 缺失值
  • 数据不一致
  • 数据转换
  • 数据缩减
    • 主成分分析
    • 条形图和直方图
    • 欠采样和过采样
  • 特征提取
  • 特征转换
  • 特征选择

数据可视化:

  • 数据可视化简介
  • 探索性数据分析
  • 描述性统计分析
  • 使用不同图表的数据可视化
  • 使用 Matplotlib 进行可视化
    • 线图
    • 散点图
    • 条形图
    • 饼状图
    • 圆环图
    • 甘特图
    • 误差条形图
  • 使用 Matplotlib 进行高级可视化
    • 堆积图
    • 面积图
    • 3D 绘图
    • 箱线图
  • 使用 Seaborn 进行可视化
    • 热图
    • 配对图
    • 群图
    • 点图
    • 计数图
    • 小提琴情节
    • KDE图

总之,数据预处理和可视化是机器学习流程中的关键步骤,“机器学习 100 天”挑战赛的第 28-45 天重点关注这些基本主题。预处理有助于通过处理缺失值、离群值和重复项、通过缩放和标准化对数据进行标准化以及通过对分类变量进行编码、选择特征和降维来转换数据来准备用于分析的数据。另一方面,可视化通过图表和图形来表示数据,有助于从数据中获得见解,Matplotlib 和 Seaborn 等工具可用于创建各种可视化效果。通过掌握这些技术,学习者可以在数据预处理和可视化方面打下坚实的基础,这将有助于他们未来的机器学习项目。

第 46 – 76 天:机器学习及其算法简介

接下来几天的机器学习之旅应该重点了解机器学习的基础知识。您应该首先了解不同类型的机器学习及其应用程序。您还应该熟悉机器学习中使用的关键概念和术语。之后,是时候深入研究算法领域了。有多种机器学习算法可供选择,算法的选择取决于您寻求解决的问题的性质。
以下是机器学习及其算法简介中涵盖的关键主题:

  • 什么是机器学习?
  • 机器学习的类型
    • 监督学习与无监督学习的区别
    • 强化学习
  • 机器学习——应用
  • 分类入门
  • 分类的基本概念
  • 回归技术的类型
  • 分类与回归
  • 机器学习 | 学习类型——监督学习
  • 使用 scikit-learn 进行多类分类
  • 梯度下降:
    • 梯度下降算法及其变体
    • 随机梯度下降 (SGD)
    • 使用 Python 进行小批量梯度下降
    • 梯度下降优化技术
    • 基于动量的梯度优化器简介
  • 线性回归
    • 线性回归简介
    • 线性回归中的梯度下降
    • 线性回归工作的数学解释
    • 线性回归中的正规方程
    • 线性回归(Python 实现)
    • Python 中的单变量线性回归
    • 使用 Python 进行多元线性回归
    • 局部加权线性回归
    • 蟒蛇 | 使用 sklearn 进行线性回归
  • 逻辑回归
    • 了解逻辑回归
    • 为什么在分类中使用逻辑回归?
    • 使用 Python 进行逻辑回归
    • 逻辑回归中的成本函数
    • 使用 Tensorflow 的逻辑回归
  • 朴素贝叶斯分类器
  • 支持向量机
    • Python 中的支持向量机 (SVM)
    • 使用 GridSearchCV 进行 SVM 超参数调整
    • 使用SVM对非线性数据集进行分类
  • 决策树
    • 决策树
    • 使用 sklearn 进行决策树回归
    • 使用Python实现决策树
  • 随机森林
    • Python 中的随机森林回归
    • 集成分类器
    • 使用 Sklearn 投票分类器
    • 装袋分级机

第 77 – 84 天:评估和模型选择

训练完模型后,您需要评估其性能并选择最适合您的问题的模型。 

  • 偏差方差权衡
  • 模型评估技术
  • 将数据分为训练、验证和测试的重要性
  • 交叉验证技术
  • 机器学习评估指标
  • 分类评价指标
    • 准确度分数
    • 准确率、召回率和 F1 分数
    • 混淆矩阵
    • ROC曲线
  • 回归评估指标
    • 平均绝对误差
    • 均方误差
    • 平均绝对百分比误差
    • R2 分数
  • 超参数调整
    • 网格搜索简历
    • 随机搜索CV

总之,“机器学习 100 天”挑战赛的第 77-84 天重点关注针对给定问题评估和选择最佳模型的关键步骤。评估是使用各种指标(例如精度、召回率和 F1 分数)衡量模型性能的过程,并且可以使用交叉验证和 ROC 曲线等技术来实现此目的。模型选择涉及从一组候选模型中选择最佳模型,超参数调整可用于优化这些模型的性能。GridSearchCV 和 RandomizedSearchCV 等技术可用于自动化超参数调整过程。通过掌握这些技术,学习者可以培养针对给定问题评估和选择最佳模型的能力,这是机器学习领域的一项关键技能。

第 85 – 94 天:机器学习项目

现在,是时候获得一些机器学习的实践经验了。因此,下面提到的一些项目将帮助您了解机器学习技术的功能和实际实施。

基于回归的项目

  • 波士顿房价预测
  • 服务员小费预测
  • 卡路里燃烧预测

基于分类的项目

  • 泰坦尼克号分类
  • 乳腺癌预测
  • 糖尿病预测

第 95 – 100 天:深度学习简介

深度学习是机器学习的一个专门领域,它部署神经网络从数据中吸收知识。它对计算机视觉、自然语言处理和语音识别等众多领域产生了革命性的影响。为了获得全面的理解,建议在 ML 之旅的最后几天学习:

  • 生物神经元与人工神经元
  • 单层感知器
  • 多层感知器
  • 前向和后向传播
  • 前馈神经网络
  • 神经网络层
  • 激活函数简介
  • 激活函数的类型
  • 深入理解激活函数
  • 神经网络中的成本函数
  • 梯度下降如何工作
  • 梯度消失或爆炸问题
  • 选择最佳的 epoch 数
  • 微调和超参数

深度学习 利用神经网络从数据中提取知识,并在一些复杂的任务中产生了显着的结果。为了全面了解该领域,学习者需要研究神经网络的架构。通过掌握这些概念,学习者可以获得深度学习和神经网络的坚实基础,这将使他们能够从事该领域令人兴奋且具有挑战性的项目。

结论:

机器学习是一个快速发展的领域,具有巨大的潜力来彻底改变我们周围的几乎一切。通过掌握机器学习、数据预处理和可视化的基础知识,人们可以开始创建自己的机器学习模型来处理现实世界的情况,并为其提供有效的自我维持解决方案。有多种算法可用,从线性回归到深度学习,选择合适的算法取决于您试图解决的问题的性质。 

总之,100 天的机器学习之旅将是一次令人难以置信的学习经历。通过这一过程,人们可以获得机器学习及其在各个领域的应用的坚实基础。文章涵盖了几个主题:机器学习、数据准备、回归、分类、聚类、自然语言处理和深度学习等。

在 100 天的机器学习过程中获得的技能在当今世界非常有价值,数据在各行业的决策过程中变得越来越重要。通过阅读本文,您将朝着精通机器学习迈出重要的一步,并且现在能够更好地解决各自领域的复杂问题。总体而言,100 天的机器学习时间和精力将是一项出色的投资,您可以期待在未来几年中获得他们的辛勤工作的回报。

相关文章

JavaScript2024新功能:Object.groupBy、正则表达式v标志
PHP trim 函数对多字节字符的使用和限制
新函数 json_validate() 、randomizer 类扩展…20 个PHP 8.3 新特性全面解析
使用HTMX为WordPress增效:如何在不使用复杂框架的情况下增强平台功能
为React 19做准备:WordPress 6.6用户指南
如何删除WordPress中的所有评论

发布评论