Machine Learning Chinese NLP :::: Logistic Regression Classification - Chad Salinas ::: Data Scientist
Use Slidify to create motion charts to share with the world on rPubs Chad Salinas or GitHub.
Slidify, rPubs Chad Salinas, Motion Charts, Hans Rosling
1218
post-template-default,single,single-post,postid-1218,single-format-standard,qode-listing-1.0.1,qode-social-login-1.0,qode-news-1.0,qode-quick-links-1.0,qode-restaurant-1.0,ajax_fade,page_not_loaded,,qode-title-hidden,qode_grid_1300,qode-theme-ver-12.0.1,qode-theme-bridge,bridge,wpb-js-composer js-comp-ver-5.4.2,vc_responsive
a

Machine Learning Chinese NLP :::: Logistic Regression Classification

Logistic Regression Classification

在这个以及接下来的几个视频中
我想
我们将开发一种叫做逻辑回归的算法,
这是当今最流行和最广泛使用的学习算法之一。

是离散的值
我们将学习一种叫做
逻辑回归 (Logistic Regression) 的算法
这是目前最流行
使用最广泛的一种学习算法
下面是一些分类问题的例子
此前 我们谈到的电子邮件
垃圾邮件分类
就是一个分类问题
另一个例子是网上交易的分类问题

比如一个卖东西的网站
如果你想了解
一个实体的交易

是不是欺诈
我们用一个表示的类的另一个名称是正类。
所以零, 我们表示为良性肿瘤, 和一个,
或者是盗用了别的用户的密码
两个类的分配, 垃圾邮件不是垃圾邮件等等。
两类的赋值为正值和负到零,
一个是有点武断和
区别一个肿瘤是恶性的还是良性的
正在传递的东西, 如没有恶性肿瘤。
我们想要预测的变量
是变量 y
我们可以认为

现在, 我们要开始与分类问题与
0 或 1
后来, 我们将谈论多类问题以及在哪里
因此 y 可以采取四值零, 一, 二, 和三。
标记为0的类
但对于接下来的几个视频, 让我们从两个类或二进制
分类问题, 我们会担心本职设置后。
那么, 我们如何开发一种分类算法呢?
下面是一个用于分类任务的培训集的示例, 用于
将肿瘤归类为恶性或良性。
并注意到, 恶性肿瘤只需要两个值, 零或 no, 一个或是。
可能标记一个恶性肿瘤
是应用我们已经知道的算法。

垃圾邮件
或者不是垃圾邮件 等等
将两个类别标记为
正类或负类
0 或 1 是任意的
其实怎样都可以
但是通常
从直觉上来讲
负类总是表达
缺少某样东西的意思
比如缺少恶性肿瘤
而 1 正类 就会表示
存在某样我们寻找的东西
但是哪个是负类
哪个是正类的定义
有时是任意的 它并不太重要
现在 我们要开始
研究只有两类 0 和 1

的分类问题
以后 我们将讨论多类别问题
多类别问题中的变量 y
的取值可以是
0 1 2 和 3 或更多

Chad Salinas working on Plotly

Chad Salinas working on analytics project.

Chad Salinas late nighter
这就是所谓的多类分类问题
但在接下来的几个视频中
让我们从两类分类问题
或者叫二元分类问题开始
我们以后再关心多类的问题
那我们怎样开发一个分类算法呢?
下面是一个训练集的例子
这个训练集是用来
给一个肿瘤分类为
恶性或者良性的

注意 这个恶性值 (malignancy)
只取两个值
0也就是非(恶性) 和 1 也就是 是(恶性)

所以拿到这个训练集
我们可以做的一个事情是
将一个我们已知的算法
线性回归用于这组数据

尝试用一条直线来拟合数据
所以如果用一条直线
拟合这个训练集
你有可能得到
看起来像这样的假设函数
好了 这是我的假设函数
h(x) 等于 θ 的转置乘以 x
如果你想进行预测
如果你想进行预测
你可以尝试

将分类器的输出阈值设为0.5
这是纵轴上0.5的位置
如果假设输出的值
大于等于 0.5
你就预测 y 值等于 1
如果小于0.5 预测y等于0
让我们看看当我们这样做的时候会发生什么

所以让我们取 0.5
所以 这就是阈值的位置
就这样使用线性回归算法
这个点右边的所有点
我们会将它们
全部预测为正类

因为它们的输出值
知道标签应该是零, 一个, 它似乎有点奇怪, 如果
都是大于0.5的

在这一点左侧
的所有点
我们会预测它们全部为负
在这个特定的例子中

看起来好像线性回归所做的
实际上是合理的
尽管我们感兴趣的是
一个分类问题
现在我们把问题稍微改一下
让我来延长一下横轴
让我来延长一下横轴
假如说新增一个训练样本
在很远的右边那里
注意 这个额外的训练样本
这里这个
它实际上并没有改变什么 对不对 ?

Let the dataset change your mindset

– Hans Rosling
No Comments

Sorry, the comment form is closed at this time.