Machine Learning Chinese NLP :::: Model Representation - Chad Salinas ::: Data Scientist
Life and times of Chad Salinas
Chad Salinas, golf caddy, data scientist, chad rPubs, recovering chess addict, daddy caddy
1128
post-template-default,single,single-post,postid-1128,single-format-standard,qode-listing-1.0.1,qode-social-login-1.0,qode-news-1.0,qode-quick-links-1.0,qode-restaurant-1.0,ajax_fade,page_not_loaded,,qode-title-hidden,qode_grid_1300,qode-theme-ver-12.0.1,qode-theme-bridge,bridge,wpb-js-composer js-comp-ver-5.4.2,vc_responsive

Machine Learning Chinese NLP :::: Model Representation

我们的第一个学习算法是线性回归算法 在这段视频中
你会看到这个算法的概况 更重要的是你将会了解 
监督学习过程完整的流程 让我们通过一个例子来开始 
这个例子是预测住房价格的 我们要使用一个数据集 
数据集包含俄勒冈州波特兰市的住房价格 
在这里 我要根据不同房屋尺寸所售出的价格 画出我的数据集 
比方说 我们来看这个数据集 你有一个朋友正想出售自己的房子 
如果你朋友的房子是1250平方尺大小 你要告诉他们 
这房子能卖多少钱 那么 你可以做的一件事就是 
构建一个模型 也许是条直线 从这个数据模型上来看 
也许你可以告诉你的朋友 他能以大约220000(美元)左右的价格 
卖掉这个房子 那么这就是监督学习算法的一个例子 
它被称作监督学习是因为对于每个数据来说 
我们给出了 “正确的答案” 
即告诉我们 根据我们的数据来说 房子实际的价格是多少 
而且 更具体来说 这是一个回归问题 
回归一词指的是我们根据之前的数据预测出一个准确的输出值 
对于这个例子就是价格 同时 还有另一种最常见的监督学习方式 
叫做分类问题 当我们想要预测离散的输出值 
例如 如果我们正在寻找 癌症肿瘤并想要确定 
肿瘤是良性的还是恶性的 这就是0/1离散输出的问题 
更进一步来说 在监督学习中我们有一个数据集 
这个数据集被称训练集 因此对于房价的例子 我们有一个训练集 
包含不同的房屋价格 我们的任务就是从这个数据中学习预测房屋价格 
现在我们给出这门课中经常使用的一些符号定义 
我们要定义颇多符号 不过没关系 
现在你记不住所有的符号也没关系 随着课程的进展 
你会发现记住这些符号会很有用 我将在整个课程中用小写的m 
来表示训练样本的数目 因此 在这个数据集中 
如果表中有47行 那么我们就有47组训练样本 
m就等于47 让我用小写字母x来表示输入变量 
往往也被称为特征量 这就是用x表示输入的特征 
并且我们将用y来表示输出变量或者目标变量 
也就是我的预测结果 那么这就是第二列 在这里 
我要使用(x, y)来表示一个训练样本 
所以 在这个表格中的单独的一行对应于一个训​​练样本 
为了表示某个训练样本 我将使用x上标(i)与y上标(i)来表示

并且用这个表示第i个训练样本 所以这个上标 i 
看这里 这不是求幂运算 这个(x(i), y(i)) 括号里的上标i 
只是一个索引 表示我的训练集里的第i行 
这里不是x的i和y的i次方 
仅仅是指(x(i), y(i))是在此表中的第 i 行 举个例子 x(1) 指的是 
第一个训练集里值为2104的输入值 这个就是第一行里的x 
x(2) 等于1416吧? 这是第二个x 
y(1) 等于460 这是我第一个训练集样本的y值 
这就是(1)所代表的含义 像之前一样 
我会问你一个问题 需要几秒的时间 检查一下你的理解程度 
在这个视频片段中 有时会有视频选择题弹出 当它弹出的时候 
请使用鼠标来选择你认为正确的答案 
这就是一个监督学习算法的工作方式 
我们可以看到这里有我们的训练集里房屋价格 我们把它喂给我们的学习算法 
这就是学习算法的工作了 然后输出一个函数 
按照惯例 通常表示为小写h 
h代表hypothesis(假设) h表示一个函数 
输入是房屋尺寸大小 就像你朋友想出售的房屋 
因此 h 根据输入的 x 值来得出 y 值 
y值对应房子的价格 因此 h是一个从x到y的函数映射 
人们经常问我为什么这个函数被称作假设(hypothesis) 
你们中有些人可能知道hypothesis的意思 
从字典或者其它什么方式可以查到 其实在机器学习中 
这是一个在早期被用于机器学习的名称 它有点绕口 
对这类函数来说 这可能不是一个很恰当的名字 
对表示从房屋的大小到价格的函数映射 我认为这个词”hypothesis” 
可能不是最好的名称 但是这是人们在机器学习中使用的标准术语 
所以不用太纠结人们为什么这么叫它 
当设计学习算法的时候 我们接下来需要去思考的是 
怎样得到这个假设h 对于这一点在接下来的几个视频中 
我将选择最初的使用规则 h代表hypothesis 
我们把h写成<u>hθ(x)=<u>θ₀</u></u>+θ₁x 
<u>有时候简单起见,</u> 
hθ(x) 我就写成h(x) 这是缩写方式 
但一般来说我会保留这个下标θ 
从这个图片中 所有这一切意味着我们要预测一个关于x的 
线性函数 y 对吧? 所以这就是数据集和函数的作用 
用来预测 这里是y关于x的线性函数 hθ(x)=θ0+θ1*x 
那么为什么是一个线性函数呢? 有时候 
我们会有更复杂的函数 也许是非线性函数 
但是 由于线性方程是简单的形式 我们将先从线性方程的例子入手 
当然 最终我们将会建立更复杂的模型 
以及更复杂的学习算法 好吧 让我们也给这模型 
起一个名字 这个模型被称为线性回归(linear regression)模型 
另外 这实际上是关于单个变量的线性回归 这个变量就是x 
根据x来预测所有的价格函数 同时 对于这种模型有另外一个名称 
称作单变量线性回归 单变量是对一个变量的一种 
特别的表述方式 总而言之 这就是线性回归 
在接下来的视频中 我们将开始讨论如何去实现这种模型 【教育无边界字幕组】翻译:Naplessss 校对:小白_远游 审核:所罗门捷列夫

Any programming problem can be solved by adding a level of indirection.

– David J. Wheeler

No Comments

Sorry, the comment form is closed at this time.