Chinese, Computer Science, Technology

Machine Learning Chinese NLP :::: Model Representation

May 29, 2018 | by chad.salinas@gmail.com | 0 Comments |

0 Likes

我们的第一个学习算法是线性回归算法在这段视频中

你会看到这个算法的概况更重要的是你将会了解

监督学习过程完整的流程让我们通过一个例子来开始

这个例子是预测住房价格的我们要使用一个数据集

数据集包含俄勒冈州波特兰市的住房价格

在这里我要根据不同房屋尺寸所售出的价格画出我的数据集

比方说我们来看这个数据集你有一个朋友正想出售自己的房子

如果你朋友的房子是1250平方尺大小你要告诉他们

这房子能卖多少钱那么你可以做的一件事就是

构建一个模型也许是条直线从这个数据模型上来看

也许你可以告诉你的朋友他能以大约220000(美元)左右的价格

卖掉这个房子那么这就是监督学习算法的一个例子

它被称作监督学习是因为对于每个数据来说

我们给出了 “正确的答案”

即告诉我们根据我们的数据来说房子实际的价格是多少

而且更具体来说这是一个回归问题

回归一词指的是我们根据之前的数据预测出一个准确的输出值

对于这个例子就是价格同时还有另一种最常见的监督学习方式

叫做分类问题当我们想要预测离散的输出值

例如如果我们正在寻找癌症肿瘤并想要确定

肿瘤是良性的还是恶性的这就是0/1离散输出的问题

更进一步来说在监督学习中我们有一个数据集

这个数据集被称训练集因此对于房价的例子我们有一个训练集

包含不同的房屋价格我们的任务就是从这个数据中学习预测房屋价格

现在我们给出这门课中经常使用的一些符号定义

我们要定义颇多符号不过没关系

现在你记不住所有的符号也没关系随着课程的进展

你会发现记住这些符号会很有用我将在整个课程中用小写的m

来表示训练样本的数目因此在这个数据集中

如果表中有47行那么我们就有47组训练样本

m就等于47 让我用小写字母x来表示输入变量

往往也被称为特征量这就是用x表示输入的特征

并且我们将用y来表示输出变量或者目标变量

也就是我的预测结果那么这就是第二列在这里

我要使用(x, y)来表示一个训练样本

所以在这个表格中的单独的一行对应于一个训练样本

为了表示某个训练样本我将使用x上标(i)与y上标(i)来表示

并且用这个表示第i个训练样本所以这个上标 i

看这里这不是求幂运算这个(x(i), y(i)) 括号里的上标i

只是一个索引表示我的训练集里的第i行

这里不是x的i和y的i次方

仅仅是指(x(i), y(i))是在此表中的第 i 行举个例子 x(1) 指的是

第一个训练集里值为2104的输入值这个就是第一行里的x

x(2) 等于1416吧? 这是第二个x

y(1) 等于460 这是我第一个训练集样本的y值

这就是(1)所代表的含义像之前一样

我会问你一个问题需要几秒的时间检查一下你的理解程度

在这个视频片段中有时会有视频选择题弹出当它弹出的时候

请使用鼠标来选择你认为正确的答案

这就是一个监督学习算法的工作方式

我们可以看到这里有我们的训练集里房屋价格我们把它喂给我们的学习算法

这就是学习算法的工作了然后输出一个函数

按照惯例通常表示为小写h

h代表hypothesis(假设) h表示一个函数

输入是房屋尺寸大小就像你朋友想出售的房屋

因此 h 根据输入的 x 值来得出 y 值

y值对应房子的价格因此 h是一个从x到y的函数映射

人们经常问我为什么这个函数被称作假设(hypothesis)

你们中有些人可能知道hypothesis的意思

从字典或者其它什么方式可以查到其实在机器学习中

这是一个在早期被用于机器学习的名称它有点绕口

对这类函数来说这可能不是一个很恰当的名字

对表示从房屋的大小到价格的函数映射我认为这个词”hypothesis”

可能不是最好的名称但是这是人们在机器学习中使用的标准术语

所以不用太纠结人们为什么这么叫它

当设计学习算法的时候我们接下来需要去思考的是

怎样得到这个假设h 对于这一点在接下来的几个视频中

我将选择最初的使用规则 h代表hypothesis

我们把h写成hθ(x)=θ₀+θ₁x

有时候简单起见，

hθ(x) 我就写成h(x) 这是缩写方式

但一般来说我会保留这个下标θ

从这个图片中所有这一切意味着我们要预测一个关于x的

线性函数 y 对吧? 所以这就是数据集和函数的作用

用来预测这里是y关于x的线性函数 hθ(x)=θ0+θ1*x

那么为什么是一个线性函数呢? 有时候

我们会有更复杂的函数也许是非线性函数

但是由于线性方程是简单的形式我们将先从线性方程的例子入手

当然最终我们将会建立更复杂的模型

以及更复杂的学习算法好吧让我们也给这模型

起一个名字这个模型被称为线性回归(linear regression)模型

另外这实际上是关于单个变量的线性回归这个变量就是x

根据x来预测所有的价格函数同时对于这种模型有另外一个名称

称作单变量线性回归单变量是对一个变量的一种

特别的表述方式总而言之这就是线性回归

在接下来的视频中我们将开始讨论如何去实现这种模型【教育无边界字幕组】翻译：Naplessss 校对：小白_远游审核：所罗门捷列夫

Any programming problem can be solved by adding a level of indirection.

– David J. Wheeler

technology

Share on:

Machine Learning Chinese NLP :::: Model Representation

Any programming problem can be solved by adding a level of indirection.

– David J. Wheeler

No Comments