Chinese, Computer Science, Technology

Machine Learning Chinese NLP :::: Supervised Learning

May 15, 2018 | by chad.salinas@gmail.com | 0 Comments |

0 Likes

在这段视频中，我将定义一个

可能是最常见的机器学习(machine learning) 问题类型

就是有监督学习

稍后，我将更正式定义有监督学习(supervised learning)

但是以举例开始是阐述它到底是什么的最好方法

并且我们随后会正式定义它

假设你想预测(predict)房价

不久前一个学生从俄勒冈州的波特兰收集数据 (data)

假设你的数据集画出来是这样的

在横坐标轴上(on the x-axis)

是不同房子的面积，单位–平方英尺

在纵坐标轴上(on the y-axis)

是不同房子的价格，单位–千美元

根据这些数据

假设你有一个朋友拥有一栋750平方英尺的房子

并且希望卖掉它

他们想知道它值多少钱

那么，学习算法(algorithm)如何帮助你呢?

学习算法可能想做这么一件事

画一条直线贯穿数据

并且使直线拟合它

根据上述线性关系看起来他们的房子大概可以卖15万美元

但也许这不是你唯一可以使用的学习算法

也许还有更好的

例如，与其用直线拟合数据

我们认为用二次函数拟合可能更好

或者二阶多项式在这个数据上也很好

如果你这样做，并在这里做一个预测

看起来很好

也许他们可以以接近20万美元的价格卖掉房子

我们稍后会讨论的一件事是如何选择

如何决策你是想用一条直线拟合数据？

还是用二次函数拟合数据？

无论选哪个帮你朋友更好的卖出房子都是不公平的

但每一个都是学习算法的好例子

这就是一个有监督学习算法的例子

有监督学习是指

事实上我们给算法的数据集

被称为“正确答案”

也就是说，我们给它关于房子的数据集在这个数据集中包含所有实例

我们告诉它什么是合适的价格

那房子的实际售价是多少

这个算法的任务就是生成更多的

正确答案就像是你朋友准备卖掉的价格

为了定义更多的术语

这也被称为回归问题

通过回归问题，我的意思是我们试图预测一个连续的输出值

即，房子的价格从技术上来说

我想价格可以四舍五入到最接近的一美分

因此也许价格是离散值

但通常，我们认为房价是一个实数，一个标量值

作为一个连续的数值

术语–回归指的是我们将要

预测出连续值属性的类型

下面是另一个有监督学习的例子

我和一些朋友之前就在研究这个

假设你想看看医疗记录并且

预测乳腺癌为恶性或良性

如果有人发现了乳房肿瘤

乳房有个肿块

恶性肿瘤是一种有害且危险的肿瘤

良性肿瘤是无害的肿瘤

很明显，人们很关心这个

让我们看看收集的数据集

假设在你的数据集中

横轴是肿瘤的大小

在纵坐标轴上

我要画出1或0，也就是或否

不管这些是不是我们以前见过的恶性肿瘤

哪个是1，哪个是0，哪个不是恶性或良性

假设你的数据集是这样的

我们看到一个这么大的肿瘤结果是良性的

其中一个

其中一个，诸如此类

不幸的是，我们也看到了一些恶性肿瘤细胞

其中一个

其中一个，诸如此类

在这个例子中，我有五个良性肿瘤的例子

五个恶性肿瘤的例子，纵轴值为1

假如一个朋友不幸得了乳腺癌

假设她的乳房肿瘤大小大概在这个值附近

机器学习的问题是

你能估计一下概率吗

恶性肿瘤和良性肿瘤的概率是多少?

为了介绍更多的术语

这是一个分类问题的例子

分类这个词指的是这样一个事实，就是

我们试图预测离散值输出0或1，恶性或良性

在分类问题中

有时输出可能有两个以上的值

一个具体的例子

可能有三种类型的乳腺癌

你可以尝试预测离散值输出0, 1, 2

或3 0代表良性

良性肿瘤，所以没有癌症

一种可能是1型癌症

也可能是3型癌症

无论1型意味着什么，2型意味着第二种癌症

3型可能意味着第三种癌症

但这也是一个分类问题因为

输出的离散值集对应的是0 你没得癌症

或得1型癌症，或2型癌症

或3型癌症

在分类问题中，还有另一种绘制数据的方法

让我展示一下具体是什么我要用

与绘制此数据略有不同的符号集

如果肿瘤的大小是我

用来预测恶性或良性的属性

我也可以这样画数据

我要用不同的符号来表示我的良性和恶性

或者我的消极和积极的例子

取代X号

现在我要用O代替良性肿瘤

就像这样，我将继续用X表示我的恶性肿瘤

我希望这个图表有意义。我所做的就是把数据集放在上面

我把它映射到这条直线上

开始使用不同的符号

圆圈和十字表示恶性和良性的例子

现在，在这个例子中

我们只使用一个特性或一个属性

即肿瘤大小，以预测肿瘤是恶性还是良性

在其他机器学习问题中

当我们有多个特性或多个属性时

这里有一个例子假设我们不知道肿瘤的大小

我们知道病人的年龄和肿瘤的大小

在这种情况下，也许你的数据集是这样的

我可能有一群这样年纪的病人

肿瘤的大小

它们是这样的

不同的病人看起来有点不同

其肿瘤如十字架所示为恶性的

假设你有个朋友不幸得了肿瘤

也许它们的肿瘤大小和年龄都在这里

给定一个这样的数据集

学习算法可能做的是把一条直线拟合到数据中去

试着把恶性肿瘤和良性肿瘤分开

所以学习算法可能会决定画这样一条直线

为了区分可能产生肿瘤的两个特征

有了这个，我们能确定你朋友的肿瘤更有可能

如果它在这里那就是有希望的

你的学习算法会说你朋友的肿瘤

这是良性的，因此更可能是良性而不是恶性

在这个例子中，我们有两个特性

病人的年龄和肿瘤的大小

在其他机器学习问题中

我们将经常有更多的特征

我的朋友研究过这个问题实际上使用了其他的特征，如

丛状厚度

肿块厚度

肿瘤细胞大小均匀性

肿瘤细胞形态的均匀性

诸如此类还有其他的特征

这是最有趣的学习算法之一

我们会在这门课上看到

一种学习算法不单单只能处理两个特征

或者三个，或者五个特征

而是无数个特征

在这张幻灯片上，我总共列出了5个不同的特性

两个在轴上，三个在上面

但是对于一些学习问题来说

真正想要的是不要用三到五个特征

而是你想要使用无限多的特性

无数的属性

学习算法有很多属性

或者特征，或者做出这些预测的线索

那么，如何处理无限多的特性呢？

你如何存储无限数量的东西

你的电脑什么时候会内存不足?

当我们讨论一种叫做支持向量机的算法时

会有一个简洁的数学技巧

允许计算机处理无限多的特性

假设我没有在这里写下两个特征和右边的三个特征

但想象一下，我写下了一个无限长的列表

我一直在写越来越多的特性

就像一个无限长的特性列表

我们会想出一个算法来解决这个问题

简单回顾一下，在这门课上

我们会讲到有监督学习

在有监督学习学习中

在数据集中的每个例子中

我们被告知什么是正确答案

我们很喜欢那个算法在示例上的预测

比如房子的价格

或者肿瘤是恶性的还是良性的

我们还讨论了回归问题

通过回归，我们的目标是预测一个连续的值输出

我们讨论了分类问题

目标是预测离散值输出

简单总结一下

假设你在经营一家公司，你想这么做

开发学习算法来解决两个问题中的每一个

在第一个问题中

你有一大堆一模一样的东西

想象一下，你有成千上万份相同商品的复制品

你要预测在未来三个月内你会卖出多少这样的商品

第二题

你有很多用户

你想要编写软件来检查你客户的每个账户

每个客户的账户

对于每个帐户，决定该帐户是否已被黑或泄露

对于这些问题

它们应该被视为一个分类问题还是一个回归问题?

当视频暂停时

请用你的鼠标选择哪一个

左边这四个选项你认为是正确答案

Chad Salinas working on analytics project.

希望你们能明白

这就是答案

对于第一个问题，我将把它看成

个回归问题，因为如果我有成千上万项

好吧，我可能会把它看成一个真实的值

作为一个连续值

因此，我销售的商品数量是一个连续的价值

对于第二个问题

我认为这是一个分类问题

因为我可能会设置我想要的值

用0预测来表示账户没有被黑

并设置值1来表示被黑的帐户

所以，就像你的乳腺癌，0是良性的，1是恶性的

我可以把它设为0或者1取决于它是否被黑了

有一个算法尝试预测这两个离散值中的每一个

因为离散值很少

因此，我将把它视为一个分类问题

这就是有监督学习

这里这个

我会讲到无监督学习

这是学习算法的另一个主要范畴

Let the dataset change your mindset

– Hans Rosling

technology

Share on:

Machine Learning Chinese NLP :::: Supervised Learning

Let the dataset change your mindset

– Hans Rosling

No Comments