《机器学习软件工程方法与实现 =softwarre engineering method and implementation》张春强，张和平，唐振|(epub+azw3+mobi+pdf)电子书下载

时间: 2022-05-04 19:37:01 3 机器学习

图书名称：《机器学习软件工程方法与实现 =softwarre engineering method and implementation》

【作　者】张春强，张和平，唐振

【丛书名】智能系统与技术丛书

【页数】 430

【出版社】北京：机械工业出版社 , 2021

【ISBN号】978-7-111-66922-7

【分类】机器学习

【参考文献】张春强，张和平，唐振. 机器学习软件工程方法与实现 =softwarre engineering method and implementation. 北京：机械工业出版社, 2021.

图书封面：

机器学习软件工程方法与实现 =softwarre engineering method and implementation

图书目录：

机器学习软件工程方法与实现 =softwarre engineering method and implementation

《机器学习软件工程方法与实现 =softwarre engineering method and implementation》内容提要：

《机器学习软件工程方法与实现 =softwarre engineering method and implementation》内容试读

第一部分

工程基础篇

CHAPI上RI

第1章

机器学习软件工程方法

本章的目的是让读者形成对机器学习领域的整体印象，并了解相关的软件工程方法。本章首先简要阐述什么是机器学习，并从多个维度讲述机器学习的类型、可学习的理论和指导意义。由于机器学习是一门交叉学科，本章也将介绍机器学习实践活动与传统软件开发过程的异同，机器学习与人工智能、深度学习交叉重叠的关系，以及机器学习与大数据的关系。读完这些内容，读者会对机器学习的上下游形成整体印象，不至于在学习过程中迷失在繁杂的机器学习知识体系里。

其次，本章讲述机器学习的软件工程和实验学科属性、实践的重要性以及与IT领域软

件开发方法的结合点，带领读者从软件工程视角看机器学习，使读者形成实践中的工程思维。接着，讲述软件开发领域的测试驱动开发方法如何与机器学习开发相结合。最后，通过朴素贝叶斯测试驱动开发案例来说明机器学习算法开发和软件工程的结合实践。

1.1机器学习简述

“机器学习”一词往往被与“人工智能”“深度学习”混用，也常与“大数据”一词一同出现。下面首先简要介绍它们的关系，然后讲述机器学习的基本概念和模式。

1.1.1机器学习与人工智能、深度学习等的关系

“机器学习”“人工智能”“深度学习”这三个词常常被人混淆，但其实它们出现的时间相隔甚

深度学习

远，“人工智能”(Artificial Intelligence,AI)出现

机器学习

人工智能

于20世纪50年代，“机器学习”(Machine Learning,ML)出现于20世纪80年代，而“深度学习”(Deep

Learning,DL)则是近些年才出现的。三者是包含与

图1-1人工智能、机器学习和深度

被包含关系，如图1-1所示。

学习的关系

第1章机器学习软件工程方法5

1.经验E

“经验”一词较为抽象，既可以是文字、图形，也可以是当面交流的对话等，属于知识的范畴。对于机器学习而言，经验必须表示为计算机可以处理的形式一数据，按照更贴近计算机底层的说法是，计算机可直接计算的数值，这也是最终进入算法中的形式（向量运算、矩阵运算等)。正因如此，机器学习中涉及大量的数据处理活动：将文字和字符编码为数值、将图像进行数值化处理等，然后进入算法学习。机器学习中所有数据处理的原则可归结为两条：适合计算机处理和便于机器学习算法学习。

扩展数据的上下游将产生大量与数据相关的活动，如数据获取、数据存储、数据ET工

等，与之对应的是不同的数据行业或技术领域。4.1.2节会简要讲述常见数据源中数据的获取方式。

我们一般会将数据表示为如表1-1所示的二维表，并适当调整原始数据©。

表1-1示例数据

instant

dteday

fake1 fake_2

mnth

holidayweekday

workingdayweathersit

temp

cnt

2011/1/1

男

0.344167

985

2011/1/2

女

0.363478

801

2011/1/3

男

0.196364

1349

2011/1/4

女

0.2

1562

2011/1/5

男

0.226957

1600

2011/1/6

女

0.204348

1606

2011/1/7

女

0.1965221510

2011/1/8

女

⊙

0.165

959

2011/1/9

女

0.138333

822

表中所有的数据可称为样本(sample,表中的每一行称为样例或实例(instance),而每一列（此数据中排除首尾两列）。在机器学习中更常称为特征（feature),在计量经济、统计等学科中更常称为变量(variable)或属性(attribute)。该数据源中instant列仅作标识用，无其他意义；而cnt列为目标(target)列，一般称为标签(label)。

有时人们也称只包含标识（或维度）列和标签列的数据集为样本，样本不包含特征。

从表1-1中可以看出，此处的数据有不同的类型：dteday列是日期型数据（时间序列），fake1列是数据字符（无序），fake2列是字符（有序），workingday列是布尔型数据（无序），temp列是常规的浮点数据。不同类型数据的处理方法不同，在第5章会详细介绍。根据具体的机器学习问题，我们有时需要进行特征离散化或连续化处理，在第6章会详细介绍。除此之外，机器学习实践过程中还可能会遇到空间、图片、音频和视频等数据，这些数据也需要特殊处理

http://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset

第一部分工程基础篇

我们将dteday到temp列以X表示，cnt列以y来表示，则机器学习的最终任务可表示为：

y=fx)

通常来说，y为因变量(dependent variable)或响应变量，X为自变量(Independent

Variable)、独立变量、解释变量或预测变量，所有可能的f称为假设空间。按照统计学的概念，我们将上面的表述进一步扩展：将X所有可能构成的集合叫作领域集(domain set).,对应的y为标签集(label set)。可获得的数据样本可进一步分为训练集(Train set))、测试集(Test set)和验证集(Validate set)等。顾名思义，训练数据是（某轮）机器学习算法学习的数据，而测试和验证则是度量其训练效果的数据，有时也称为袋外数据(Out Of Bag)。在

一些集成算法的执行过程中，以上几种数据划分有时是模糊的或交替的，例如在交叉验证的情况下训练随机森林。在一些具有时间属性的场合，把训练集和测试集时间范围外的起最终模型估计作用的数据集称为OOT集(Out Of Time set),也称跨时间测试集。第4章将会详细讲述以上概念在实践中的应用。

当数据集中的特征（列）太多时，会引发维度灾难，给机器学习求解带来困难或造成过拟合（训练集上表现好，测试集上表现差），从而导致机器学习在新场景下效果很差。针对这一问题，第8章会详细讲述如何选取对问题有用的特征。当数据集中的特征（列）太少或可能存在更有价值的隐变量时，特征衍生就像机器学习中的一个魔法，对特征交叉组合出新的特征，第7章将详细介绍。在一些特定的建模场景里，比如在银行和互联网金融领域，评分卡应用历史悠久，其理论研究也非常丰富。笔者认为，构建评分卡的过程中，变量分箱（离散化）是最核心的技术，第6章会着重讲述这些技术及其实现。实际上，树模型本质上也是离散化了特征。

如果我们对数据集进一步研究会发现，数据集的元信息还能传递信息，如数据集的行数和列数、数值列和类别型列的数量、类别值的数量、列空值占比、行空值占比。此外，还有大量的数据统计信息，如最大和最小值、均值和分位数、偏度和峰度、中间绝对偏差(Median Absolute deviation,MAD)等。所有这些信息都是机器学习可处理、可衍生、可转化、可利用、可挖掘的信息。

当然，除了上述将经验表示为数据的形式外，经验自然还包括人们对问题的看法和见解，它们指导机器学习的过程，包括填充空值、选择特征、选择算法、调整算法参数、选择和评判最终模型。这是机器学习的现状一需要大量人力的参与，机器本身智能有限（狭

义的人工智能)。总之，机器学习中经验E的本质是进行知识和经验的表示和表达，进而在

计算机世界里传承。

最后需要注意，经验有效的前提条件是：我们获得的数据来自真实世界的缩影，同时训练数据和未来或未见的数据在相同的特征空间里且具有相同、相近或相关的分布。也就是说，如果现有的数据和经验在某种程度上具有普适性，可应用在未来或当前类似的场景，则经验有用。经验和知识的质量（正确性、完整性）将直接影响学习的结果。

···试读结束···

声明：本网站尊重并保护知识产权，根据《信息网络传播权保护条例》,以上内容仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站内容来自网络收集整理或网友投稿，所提供的下载链接也是站外链接，版权争议与本站无关。您必须在下载后的24个小时之内，从您的设备中彻底删除上述内容。如果您喜欢该程序和内容，请支持正版!我们非常重视版权问题，如有侵权请邮件与我们联系处理。敬请谅解！邮箱：121671486@qq.com,微信：diqiuren010101