慕课笔记,机器学习基础

一  认识机器学习

何以是机械学习 

定义:

利用总结机从历史数据中找出规律,并把那么些规律用到对前途不分明场景的表决。

壹.一  什么是机器学习

利用总计机从历史数据中找出规律(数学函数),并把那些原理用到对前景不明确场景的表决。

小心:是利用总括机分析数据(机器学习),而不是人(数据解析)。

从数额中追寻规律

探寻规律:概率学 总括学
总计学方法:抽样 -> 总结 -> 要是检测
乘势电脑处理能力增强 -> 不要求采集样品
数量增添 -> 维度扩展 -> 不能可视化 -> 只可以数学方法表示

我们开始展览机器学习的3个目标正是从多量的多寡中总结出3个端庄的数学模型

一.2  从数额中搜寻规律

  • 概率论(基石)
  • 数理计算(采集样品、描述总括、借使检测)

机器学习进步的原重力

大数额概念的面世

用数码代表专家
经济驱动,数据显现

一.三  机器学习升高的原引力

从历史数据中找出规律,把那么些原理用到对以后自动做出决定。

  • 用多少代替expert。
  • 经济驱动,数据显现。

作业系统提升的历史

依照专家经验(头脑龙卷风。然后交给程序员写壹些断定语句)
依据计算-分纬度总括(依靠业务报表,数据仓库,olap计算)
机械学习-在线学习(实时的数据流,实时调整)

一.四  业务系列进步的历史

  • 听说专家经验
  • 依照计算——分维度计算
  • 机械学习——在线学习

注:机器学习分为离线机器学习和在线机器学习,在线机器学习强调实时性。

非凡应用-关联规则

购物篮分析:关联规则 (一种多少挖掘算法)

联想连接 找出规律 

购置物品同时买了其余什么物品。
纸尿布和洋酒的故事

经济学,捆绑销售;更加大的益处

二  机器学习的出众应用

独立应用-聚类

用户细分的超人案例,全世界通精准营销
把用户消费的数码利用聚类算法,能够依照用户消息,自动对用户举行分拣

二.一  关联规则

购物篮分析(数据挖掘)

  • 卓越案例:“果酒+尿布”案例

 典型应用-朴素贝叶斯和仲裁树 

厉行节约贝叶斯——垃圾邮件的辨识
决策树——银行在发放贷款时对用户的偿付能力评估

2.2  聚类

用户细分,精准经营销售

  • 顶尖案例:中国际联盟通分为神州大众卡、整个世界通、动感地带、神州行等

杰出应用-ctr预估和一块过滤

网络广告:ctr预估(线性逻辑回归)–用户点击率预估,百度找寻结果排序
推荐介绍系统:协同过滤(类似购物车分析—关联规则)

二.三  朴素贝叶斯和决策树

ca88手机版登录网页,垃圾邮件识别

  • 省吃俭用贝叶斯

信用卡欺诈(风险识别)

  • 决策树

 典型应用自然语言处理和图像识别

自然语言处理
  心绪分析:依据用户的评论,分析出来该用户是我们的积极向上用户依旧没精打采用户….
  实体识别:将1篇小说中,主干比如人名,时间,地名提取出来

纵深学习
  图片识别:给一张照片,自动识别出来,是猫啊依旧兔子。

越多应用:

话音识别

驾驭机器人

特性化诊疗

私人虚拟助理

情绪分析

手势控制

人脸识别

摄像内容自动识别

机动驾乘

机器实时翻译……

2.4  ctr预估和联合过滤

网络广告(广告顺序)

  • ctr预估(预测可能率)

推荐系统(电商推荐)

  • 同步过滤

数量解析和机械学习的分歧

数量解析:交易数额、少量多少、采集样品分析。对数据一致性供给从严,使用关系型数据库sql
serve、mysql、oracle。
机械学习:行为数据、海量数据、全量分析。需求保险数据吞吐量,数据一致性能够减小,所以用NoSQL数据库

 

数码解析(OLAP,联机分析)-用户(数据分析师)驱动,交互式分析。
机器学习-数据+算法驱动,自动进行辨认。

ca88手机版登录网页 1

ca88手机版登录网页 2

二.5  自然语言处理和图像识别

自然语言处理

  • 心理分析(依照提供的1段文本,能够分析出是勇往直前依然人困马乏)
  • 实体识别(从壹篇小说中把人名、地名等为主识别出来)

图像识别

  • 深度学习

机械学习常见算法和分类

按数量情状:Y有未有规定
有监督学习—已知分类(标签)—分类,回归
无监察和控制学习—未知分类(无标签)—聚类
半监督学习—强化学习,随着样本数据量回升,分类标准清晰

按算法的衡山真面目
变动模型—给出属于A/B/C类的票房价值,类似陪审团;
辨认模型—通过给定函数判断Y/N,类似大法官裁决;

 

(1)ICDM
一.分类—C四.伍莱用决策树算法,能够缓解【分类】&【回归】难题;
二.聚类—K-Means算法,属于无监督形式,化解电信用户分类难题;
三.总结学习—SVM(辅助向量机)能够缓解分类(主)和回归难点,有很好的表现和坚实的数学理论援救,曾经被认为是最棒的分类算法。未来光线被【深度学习】掩盖了。有必然的数学门槛,面试中平日被问。
4.关联分析—Apriori应用于“尿片和纸尿裤”案例,最早解决了频仍项集难题。由于要求反复造访数据库,已被淘汰。取代它的是华夏族开的【FP-Growth】算法。应用:电商的推荐介绍系统,但如今有越来越好的代表格局。
五.总结分析—EM算法是一个算法框架,用于化解一文山会海题材。
陆.老是挖掘—PageRank。谷歌使用的网页排序算法,很有名。
7.集装与促进—AdaBoosts算法,应用于人脸识别,本质为创新的核定树算法,属于有监督的分类算法。
八.分类—kNN。相对简便易行的归类算法,有监察和控制。
9.分拣—Naive Bayes朴素贝叶斯算法,用于识别垃圾邮件。
近日不常用的算法:Apriori和CA福睿斯T。

(2)有名算法
1.FP-Growth—关系分析方法Apriori的革新。
2.逻辑回归—应用特别多,多用来百度、谷歌(Google)搜索结果的排序。
三.瑞虎F(随机森林)、GBDT—和AdaBoost类似,都属于决策树算法。
四.推荐算法—电商标配
伍.LDA—用以文书分析、自然语言处理。有必然的难度。
陆.Word二Vector—google成品,耳熟能详,用于文书挖掘。
七.HMM(隐马尔科夫)、C昂CoraF(条件分析)—文本挖掘。
八.纵深学习—如今最火的算法

ca88手机版登录网页 3

3  数据解析与机械和工具学习的分别

机械学习消除难点

机械学习,预测难点(种类-离散 ,数值 -接二连三),聚类难点
规定指标:业务须要,数据,特征工程(数据预处理,提取特征
7/10-数据的领取万分重要),数据足以一向就喂给算法,数据对模型的震慑不小,数据控制了最终的展望结果

三.1  数据特点各异

 

数据特点对比
数据分析 机器学习
交易数据 行为数据
少量数据 海量数据
采样分析 全量分析

 

 

注:交易数额就是跟钱有关的数量,行为数据就是如搜寻历史、浏览历史等连锁数据。

机器学习消除难题的框架

教练模型:定义模型-发生公式(根据现实要消除的标题)、定义损失函数(预测的结果与实际的结果里面包车型客车偏差最小的函数)、优化算法(使损失函数取非常的小值)
模型评估:交叉验证、效果评估

三.贰  化解工作不一致

  • 数码解析:报告过往的事
  • 机械学习:预测以往的政工

三.三  技术手段差异

  • 数据解析:用户驱动、交互式分析
  • 机器学习:数据驱动、自动进行文化发现

三.4  参与者区别

  • 多少解析:分析师
  • 机械学习:数据+算法

四  常见的算法和分类

四.一  算法分类(1)

4.壹.一  有监察和控制学习

  • 分拣算法(知道具体的X、Y类):X类(平常邮件)、Y类(垃圾邮件)
  • 回归算法

四.一.2  无监督学习

  • 聚类(不明白具体的X、Y类)

4.一.叁  半监医学习(强化学习)

  • 譬如说上学行走,是三个深化的进度

四.贰  算法分类(二)

  • 分拣与回归
  • 聚类
  • 标注(标签)

四.三  算法分类(三)

  • 变动模型:模糊判断、百分比、概率
  • 识假模型:判断属于非凡类型

注:生成模型与识别模型的涉嫌正是X和E[X]的关系。

四.4  机器学习10大经典算法

10大经典算法简介

ca88手机版登录网页 4

5  化解难点

5.1  机器学习消除难点(壹)

明确目的->业务须要->数据->特征工程

5.2  机器学习化解难题(2)

陶冶模型

  • 概念模型
  • 概念损失函数
  • 优化算法

模型评估

  • 穿插验证
  • 成效评估
You can leave a response, or trackback from your own site.

Leave a Reply

网站地图xml地图