小讲@大讲台2017/05/03         
未来四大黑科技:机器学习 、虚拟现实、无人机、3D打印。无人机技术相对较为成熟,经过市场整合,现在已进入低调的扩张期。3D打印面临着种种技术瓶颈,尚处于技术完善阶段。虚拟现实和机器学习则是目前各行各业热捧的对象。尤其是几个月前, AlphaGo大败世界围棋冠军、职业九段选手李世石,机器学习名声大噪。一时间,机器学习给人一种狂拽酷帅叼炸天的感觉,对很多人来说貌似高不可攀。
图:AlphaGo大战世界围棋冠军李世石
大数据和机器学习天生暧昧,很多做大数据的人都或多或少关注到机器学习。但很多人望而却步,机器学习真的神圣到高不可攀?
让我们首先看一下,到底什么是机器学习?机器学习(Machine Learning)是人工智能的分支,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,使之不断改善自身的性能。那么,AlphaGo到底是怎么工作的?简单来说,AlphaGo先从十几万份人类6至9段职业棋手的对弈棋谱中,学习和模仿人类常见的落子方式;然后在比赛中对于每一步,预计对手的几种应对方式,估计落子后的形势和赢面,选择其中最有利的一种走法。
这样说,多少还是有些模糊,对工(程)程(序)师(员)来说要怎么来让机器能够学习呢?看看几类机器学习的方式也许离技术实现又进了一步。
1.监督学习:从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练数据中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。
2.无监督学习:与监督学习相比,训练集没有人为标注的结果。常见的无监督学习算法有聚类。
3.半监督学习:介于监督学习与无监督学习之间。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。。
4.增强学习:通过观察来学习做成如何的动作。每个动作都会对环境有所影响,学习对象根据观察到的周围环境的反馈来做出判断。
对技术人员来说,这几种机器学习方式中包括一些关键词应该熟悉得不要不要的:函数、输入输出、回归分析、统计分类、聚类、标注。抓住这些核心点,那么机器学习也就没有那么复杂啦,至少对很多有能力玩转大数据的同学来说,可以轻松的把它拉下神坛。
那么,机器学习到底难不难,是不是需要很深的数据和算法功底?
知乎上有位网友的回答也许能够解决大家的顾虑:
图:机器学习是不是需要很深的数据和算法功底?
也许说到这里,很多对机器学习感兴趣的同学不是不知道,到底从何入手系统学习机器学习技术。那好吧,这里有一份机器学习资料,顺着这份资料的脉络,一个月左右入门机器学习应该什么难度。
30小时攻破机器学习
1.机器学习-核心数学基础
1.1微积分
1.1.1 导数与导数法则
1.1.2 多元函数求积分(求梯度)
1.1.3 链式求导法则
1.1.4 常用函数(logistic函数、softmax函数)
1.1.5 泰勒级数与极值
1.2概率论
1.2.1 随机变量
1.2.2 累计分布函数
1.2.3 概率密度函数
1.2.4 高斯分布
1.2.5 贝叶斯公式
1.3矩阵论
1.3.1 矩阵的基本运算
1.3.2 矩阵结合律与分配律
1.3.3 常见的矩阵
1.3.4 矩阵范数
1.3.5 矩阵的特征值分解,方阵的特征值(Eigenvalues)与特征向量(Eigenvectors)
1.3.6 二次型
1.3.7 特征分解应用--PCA
1.4凸优化
1.4.1 一般约束优化问题
1.4.2 一般约束优化问题(举例)
1.4.3 KKT 条件以及应用
1.4.4 ICA及fastica
1.4.5实战:fastica应用--表情分类
2.Python 数据分析
2.1 搭建Python开发平台
2.1.1基础平台搭建
2.2 python使用入门
2.2.1数据结构
2.2.2 库的导入和添加
2.3 python数据分析工具
2.3.1 Numpy——python的数值计算存储
2.3.2 Scipy —— python 机器学习函数库
2.3.3 Matplotlib ——python matlab接口
2.3.4 Pandas —— python的数据分析存储
2.3.5 Scikit-learn —— python的机器学习库
2.3.6 keras与tensorflow ——python的深度学习库
2.3.7 Gensim —— python 文本相似度计算
3.数据探索
3.1 数据质量分析
3.2 数据特征分析
3.3 python主要数据探索函数
4.数据预处理
4.1 数据清洗
4.1.1 拉格朗日插值法
4.1.2 牛顿插值法
4.1.3 异常值处理
4.2 数据集成
4.2.1 实体识别
4.2.2 冗余属性识别
4.3 数据变换
4.3.1 简单函数变换
4.3.2 规范化
4.3.3 连续属性离散化
4.4 数据规约
4.4.1 属性规约
4.4.2 数值规约
4.5 Python主要数据预处理函数
5.回归模型
5.1 线性回归
5.1.1 线性回归函数模型
5.1.2 最大似然与最小平方
5.1.3 线性判别分析
5.1.4 正则化最小平法
5.1.5 多分类学习
5.2 Logistic 回归
5.2.1 线性判别分析
5.2.2 多分类学习(softmax回归)
5.2.3 类别不平问题
5.2.4 实战:logistic回归举例-房价预测
6.贝叶斯分类器
6.1 贝叶斯决策理论
6.2 极大似然估计
6.3 朴素贝叶斯分类器
6.4 EM算法
6.5实战:实际案例-垃圾邮件分类
7.支持向量机
7.1 间隔与支持向量
7.2 对偶问题
7.3 核函数
7.4 软间隔与正则化
7.5 支持向量回归
7.6 KKT条件
7.7实战:应用案例-钓鱼网站检测
8.集成学习
8.1 决策树与随机森林
8.1.1 熵、KL散度、CHI
8.1.2 决策树算法-ID3、C4.5
8.1.3 决策树剪枝算法
8.1.4 结合策略
8.1.5 Bagging 与Randomforest
8.1.6 GDBT 算法
8.1.7实战:案例 GBDT 在广告点击率预估中的应用
8.2 Adaboost算法
8.2.1 弱分类器选择
8.2.2 使用LR+Adaboost 进行人脸属性分类
9.神经网络
9.1 激活函数
9.2 单个神经感知机
9.3 前向传播算法
9.4 反向传播算法
9.5 梯度下降算法
9.6 卷积神经网络
9.7实战:利用卷积神经网络进行表情识别。
这份资料中不仅包括数学基础、常见机器学习算法,还有房价预测、垃圾邮件分类、钓鱼网站检测、广告点击率预估、表情识别等多个实际操作案例。感兴趣的同学可以联系小编索取详细信息!
个人看法是,机器学习远没有想象的复杂。若有合适的指引和学习路径,入门机器学习so easy。我们唯一要做的就是,沉下心来,不要好高骛远,踏踏实实从机器学习需要的数学和算法基础技术学起,这才是正道!
依然 2017/07/22
回复