028-86922220

建站动态

根据您的个性需求进行定制 先人一步 抢占小程序红利时代

黄佳《零基础学机器学习》chap1笔记-创新互联

黄佳 《零基础学机器学习》 chap1笔记

这本书实在是让我眼前一亮!!! 感觉写的真的太棒了!

成都创新互联公司专注于中大型企业的成都做网站、成都网站制作和网站改版、网站营销服务,追求商业策划与数据分析、创意艺术与技术开发的融合,累计客户上千余家,服务满意度达97%。帮助广大客户顺利对接上互联网浪潮,准确优选出符合自己需要的互联网运用,我们将一直专注成都品牌网站建设和互联网程序开发,在前进的路上,与客户一起成长!

文章目录

第1课 机器学习快速上手路径—— 唯有实战 1.1 机器学习族谱

参考:用mermaid在typora中画思维导图

image-20221127032012657

1.2 云环境入门实践:推断加州房价

数据集eda

1.3 基本的机器学习术语
术语定义数学描述示例
数据集数据的集合 { ( X 1 , y 1 ) , ⋯   . ( X n , y n ) } \{(X_1,y_1),\cdots.(X_n,y_n)\} {(X1​,y1​),⋯.(Xn​,yn​)}1000个北京市房屋的面积、楼层、位置、朝向,以及部分房价信息的数据集
样本数据集中的一条具体记录 { ( X 1 , y 1 ) } \{(X_1,y_1)\} {(X1​,y1​)}一个房屋的数据记录
特征用于描述数据的输入变量 { x 1 , x 2 , ⋯   . x n } \{x_1,x_2,\cdots.x_n\} {x1​,x2​,⋯.xn​}也是一个向量面积( x 1 {x_1} x1​)、楼层( x 2 {x_2} x2​)、位置( x 3 {x_3} x3​)、朝向( x 4 {x_4} x4​)
标签要预测的真实事物或结果,也称为目标y房价
有标签样本有特征、标签,用于训练模型(X,y)800个北京市房屋的面积、楼层、位置、朝向,以及房价信息
无标签样本有特征,无标签(X, ?)200个北京市房屋的面积、楼层、位置、朝向,但是无房价信息
模型将样本的特征映射到预测标签f(X),其实也就是函数通过面积、楼层、位置、朝向这些信息来确定房价的函数
模型中的参数模型中的参数确定了机器学习的具体模型f(X)这个函数的参数如f(X)=3X+2中的3和2
模型的映射结果通过模型映射出无标签样本的标签y’200个被预测出来的房价
机器学习通过学习样本数据,发现规律,得到模型的参数,从而得到能预测目标的模型确定f(X)和其参数的过程确定房价预测函数和具体参数的过程
1.4 python和机器学习框架1.5 机器学习项目实战架构

用MNIST数据集为例

1.5.1 问题定义1.5.2 数据的收集和预处理 1.原始数据的准备2.数据的预处理3.特征工程和特征提取4.载入MNIST数据集
import numpy as np # 导入NumPy数学工具箱
import pandas as pd # 导入Pandas数据处理工具箱
from keras.datasets import mnist #从Keras中导入mnist数据集
#读入训练集和测试集
(X_train_image, y_train_lable), (X_test_image, y_test_lable) =  mnist.load_data()

数据向量化的工作MNIST数据集已经为我们做好了,可以直接显 示这些张量里面的内容:

print ("特征集张量形状:", X_train_image.shape) #用shape方法显示张量的形状
print ("第一个数据样本:\n", X_train_image[0]) #注意Python的索引是从0开始的

shape方法显示的是X_train_image张量的形状。灰度图像数据集是 3D张量,第一个维度是样本维(也就是一张一张的图片,共60 000 张),后面两个是特征维(也就是图片的28px×28px的矩阵)。可以发现灰度 信息主要集中在矩阵的中部,边缘部分都是0填充,是图片的背景。数字矩阵的内容差不多如下图所示。
在这里插入图片描述

再看一下标签的格式:

print ("第一个数据样本的标签:", y_train_lable[0])
第一个数据样本的标签: 5

上面的数据集在输入机器学习模型之前还要做一些数据格式转换 的工作:

# from keras.utils.np_utils import to_categorical # 导入keras.utils工具箱的类别转换工具
from tensorflow.python.keras.utils.np_utils import to_categorical # 导入keras.utils工具箱的类别转换工具
X_train = X_train_image.reshape(60000,28,28,1) # 给标签增加一个维度
X_test = X_test_image.reshape(10000,28,28,1) # 给标签增加一个维度
y_train = to_categorical(y_train_lable, 10) # 特征转换为one-hot编码
y_test = to_categorical(y_test_lable, 10) # 特征转换为one-hot编码
print ("数据集张量形状:", X_train.shape) # 特征集张量的形状
print ("第一个数据标签:",y_train[0]) # 显示标签集的第一个数据

image-20221127043211421

书上那个 from keras.utils.np_utils import to_categorical # 导入keras.utils工具箱的类别转换工具

会报错
在这里插入图片描述

改成上面那个tensorflow.python.keras.utils就🆗

from keras import models # 导入Keras模型, 和各种神经网络的层
from keras.layers import Dense, Dropout, Flatten, Conv2D, MaxPooling2D
model = models.Sequential() # 用序贯方式建立模型
model.add(Conv2D(32, (3, 3), activation='relu', # 添加Conv2D层
                 input_shape=(28,28,1))) # 指定输入数据样本张量的类型
model.add(MaxPooling2D(pool_size=(2, 2))) # 添加MaxPooling2D层
model.add(Conv2D(64, (3, 3), activation='relu')) # 添加Conv2D层
model.add(MaxPooling2D(pool_size=(2, 2))) # 添加MaxPooling2D层
model.add(Dropout(0.25)) # 添加Dropout层
model.add(Flatten()) # 展平
model.add(Dense(128, activation='relu')) # 添加全连接层
model.add(Dropout(0.5)) # 添加Dropout层
model.add(Dense(10, activation='softmax')) # Softmax分类激活,输出10维分类码
# 编译模型
model.compile(optimizer='rmsprop', # 指定优化器
              loss='categorical_crossentropy', # 指定损失函数
              metrics=['accuracy']) # 指定验证过程中的评估指标
1.5.3 模型(算法)的选择1.5.4 选择机器学习模型内部参数超参数(hyperparameter)在本环节确定内部参数
from tqdm.keras import TqdmCallback
model.fit(X_train, y_train, # 指定训练特征集和训练标签集
          validation_split = 0.3, # 部分训练集数据拆分成验证集
          epochs=5, # 训练轮次为5轮
          batch_size=128,callbacks=[TqdmCallback(verbose=2)]
         ) # 以128为批量进行训练

在上面的训练过程中,fit方法还自动地把训练集预留出30%的数据 作为验证集(马上就会讲到什么是验证集),来验证模型准确率。 输出结果如下:

image-20221127103219780

以上显示的5轮训练中,准确率逐步提高。

1.5.5 超参数调试和性能优化训练集、验证集和测试集

可以把过拟合理 解为模型对当前数据集的针对性过强了,虽然对训练集拟合效果很好,但是换一批新数据就不灵了。这叫作模型的泛化能力弱。

K折验证

在这里插入图片描述

模型的优化和泛化怎么看预测结果反思image-202211271042520941.6 小结

image-20221127145851199

1.7 练习

你是否还在寻找稳定的海外服务器提供商?创新互联www.cdcxhl.cn海外机房具备T级流量清洗系统配攻击溯源,准确流量调度确保服务器高可用性,企业级服务器适合批量采购,新人活动首月15元起,快前往官网查看详情吧


本文名称:黄佳《零基础学机器学习》chap1笔记-创新互联
当前URL:http://www.tsicrk.com/article/djhghh.html

其他资讯

让你的专属顾问为你服务

1.5605s