课程介绍
数据分析框架及思路是核心,技巧技术是关键。本课程重在培养学员数据分析逻辑及思路,并结合常用技术及工具,落实完善分析框架。简易便捷的教学帮助学员很快上手,并结合互联网平台实战经验,分享用户研究、用户精细化分析、产品精细化分析等专项案例。针对零基础或想转战数据分析/数据运营岗位的学员,培养数据分析思维及技巧;针对有一定分析水平的学员,提升分析及技巧水平;让学员在未来的工作中增光添彩。
产品偏好-定向推送分析
动态筛选图-渠道效果分析
动态筛选图-用户转化分析
用户精细化-用户成长路径
用户精细化-用户三维散点1
用户精细化-用户三维散点2
课程特色
1)课程围绕互联网平台的用户及产品精细化运营展开,揭开数据分析面纱,快捷上手数据分析;
2)课程包含数据分析常用技术和工具,包含excel数据分析、SPSS的数据分析、Python数据分析、R数据分析等,适用于普众学员;
3)本课程聚焦数据分析核心工具及核心内容的讲解,重在快速上手数据分析。
课程涉及哪些工具与技术
1)统计学相关原理
2)Excel:适用于大众学员的使用工具,充分发掘excel数据分析潜力
3)SPSS:统计分析软件,便于建模分析
4)Python:性能非常高效,使用简单的脚本能处理大量的数据
5)R:包含大量的统计函数,具有较强的可视化功能,简单易用
6)Tableau:数据可视化分析,简易教学便捷上手
课程适用人群
1)对数据分析零基础或有简单了解的学员;
2)想转行做数据分析或者数据运营的学员;
3)想提升数据分析项目经验的学员;
学习需要什么基础
零基础学员或有一定分析、统计基础的学员
课程学完后的目标
1)培养数据分析思维;
2)熟悉并会使用excel进行基本的数据分析;
3)熟悉并会使用SPSS进行统计及数据分析;
4)熟悉并会使用Python进行统计及数据分析;
5)熟悉并会使用R进行统计及数据分析;
6)熟悉并会使用数据可视化分析软件进行数据分析;
7)结合上述工具独立完成数据分析报告及专项建模研究。
讲师介绍
-
杨倩
北京理工大学数学与应用数学学士,北京工商大学计量经济学专业硕士
曾供职于万达集团数据中心、某在线黄金期货平台分析中心、某知名集团旗下金融平台数据运营中心。五年数据分析经验,擅长基于CRM的数据挖掘、数据可视化、大数据分析、用户运营及市场预测等相关工作。
-
王旭
大讲台特聘讲师
曾供职于国内第三方征信公司,某知名集团旗下金融平台风控事业部。三年数据分析经验,主要从事用户客群分类、用户特征挖掘,自动信审模型及信用申请评分卡、催收评分卡等相关工作。
免费视频这么多,为什么还要来大讲台?
智能化
学习任务智能推送
混合式
“图文+视频”混合式课件
答疑快
30分钟问答响应
实战多
3分理论7分实战
包学会
账号长期有效学会为止
课程大纲
Excel常用公式与函数 |
数据清洗类 关联匹配类 逻辑运算类 计算统计类 时间序列类 Excel隐藏函数 Excel常见问题及解决方案 Excel日产工作使用技巧 |
Excel实战项目 |
互联网金融行业常用指标分析 互联网金融行业充值返现活动效果分析 某教育机构财务周报分析 |
Python基础 |
Python安装 Python语法基础 Python介绍及特性 Python基本数据类型 运算符 Python常见数据结构 流程控制语句 函数 模块 输入和输出 异常 |
Python数据分析 |
Jupyter Notebook安装 Python数据分析扩展包-NumPy Python数据分析扩展包-Pandas |
Python爬虫初级 |
Python爬虫初体验:51job爬虫 数据提取-XPath&正则表达式 实战:51job爬虫 实战:京东商品爬虫 反爬策略之浏览器模拟 反爬策略之IP代理 实战:微信爬虫 |
Excel经典数据图表 |
柱形图、条形图、折线图、饼图 美化图表 漏斗图 XY散点图、面积图、组合图 |
Excel动态作图 |
函数OFFSET 自定义名称动态作图 各种控件(单选、多选、组合框、滚动条、双控件)动态作图 |
Excel数据图表实战 |
实战:互联网金融项目动态作图 |
Excel数据透视表 |
如何使用透视表 常用功能:报表布局、更改计算方式、套用样式、切片器及计算字段等 |
Excel数据透视表实战 |
实战:Excel数据透视表分析某教育公司招生情况 |
Excel VBA |
基础语法 常用对象 事件 用户界面设计 |
MySQL数据分析 |
数据库介绍:关系型数据库、网状数据库,HDFS、Hbase、Hive等 MySQL安装 使用Workbench连接MySQL 数据库操作 数据表操作 索引 常用查询语句 自定义函数 存储过程 触发器 事务 重复数据 导入导出 超时异常 |
MySQL实战 |
实战:电商销售数据综合查询 |
微积分 |
导数与导数法则 多元函数求积分(求梯度) 链式求导法则 常用函数(logistic函数、softmax函数) 泰勒级数与极值 |
线性代数 |
向量 矩阵 行列式 矩阵的逆、秩及分块求逆 特征值及特征向量 正定矩阵、非负定矩阵和投影矩阵 矩阵的微商和变换的雅克比行列式 |
概率论 |
概率定义、性质 随机变量及其分布 贝叶斯公式 条件概率 |
描述性统计分析 |
统计学基础概念
集中趋势的度量 离散程度的度量 偏态与峰度的度量 正态分布、t分布、卡方分布、F分布等 数据标准化 实战:Excel绘制标准正态分布概率密度曲线 |
参数估计 |
参数估计的基本原理与置信区间
点估计 参数估计的基本原理与置信区间 一个总体参数的区间估计 两个总体参数的区间估计 练习:参数估计经典题目训练 |
假设检验 |
假设检验的基本原理
利用P值进行决策 一个总体参数的检验 两个总体参数的检验 练习:假设检验经典题目训练 |
方差分析 |
方差分析的基本问题 单因素方差分析 双因素方差分析 实战:用Excel进行有交互作用的双因素方差分析 |
线性回归 |
变量间关系的度量 一元线性回归 利用回归方程进行估计和预测 残差分析 多元线性回归模型 回归方程拟合优度 多重共线性 利用回归方程进行估计和预测 变量选择与逐步回归 实战:利用回归分析预测某金融平台交易量 |
时间序列 |
时间序列的概念和种类 时间序列的描述性分析 时间序列预测的程序 时间序列预测的方法 实战:用Excel预测某水产公司加工量 |
聚类分析 |
聚类分析的基本原理 系统聚类 K-均值聚类 实战:利用不同的聚类方法对投资渠道进行分析 |
因子分析及主成分分析 |
主成分分析 因子分析 实战:对某金融在线平台的投资渠道进行因子分析 |
实战:SPSS数据分析 |
描述性分析 & 案例
假设检验 & 案例 单因素方差分析 & 案例 双因素方差分析 & 案例 带有虚拟变量(哑变量)的线性回归分析 聚类分析 & 案例 因子分析 & 案例 |
R语言基础 |
R简介 R集成开发环境 条件判断 循环 数据类型和变量 定义函数 函数的参数 调用函数 递归函数 安装模块 使用模块 |
R绘图 |
ggplot概述 散点图、线图与时间序列谱图 柱形图,点图,饼图,直方图 箱线图,热力图,等高线 地图 |
数据预整理 |
数据分析的一般流程 数据的输入输出 常用统计量计算 共线性与稀疏变量 缺失值填补 数据变换与处理离群点 名义变量 |
回归模型 |
线性回归模型 广义线性回归 非线性回归 回归检验与方差分析 实战:预测25家银行分行的不良贷款 |
分类模型 |
logistic回归 最近邻算法 贝叶斯分类器 决策树 分类模型的评估 实战:利用康斯威星州乳腺癌数据集预测患有乳腺癌的概率 |
关联分析和推荐技术 |
MINE方法 apriori购物篮分析 |
聚类分析 |
层次聚类法 谱系图 k平均值法 实战:根据辽宁等5个省份2000年城镇居民消费支出进行聚类分析 |
数据降维 |
主成分分析 因子分析 实战:对全国35个中心城市的综合发展水平作分析评价 |
Tableau |
Tableau介绍及安装 Tableau数据源 Tableau计算 Tableau图表及仪表板 Tableau常用操作 Tableau常用函数 Tableau高级分析 |
Tableau可视化实战 |
实战:电商销售数据可视化 |
Python高级 | 生成器与迭代器 Python面向对象 代码封装 Python数据分析扩展包-ggplot |
Python爬虫高级 |
Scrapy安装与配置 Scrapy常用命令 Scrapy核心架构 Scrapy爬虫编写 将爬取到的数据导入MySQL 实战:CSDN博客爬虫项目 实战:淘宝商品爬虫 实战:新浪微博爬虫项目 分布式爬虫实现原理-Redis、Docker、Zookeeper 实战:构建分布式爬虫 |
分类算法 |
k-邻近算法 实战:使用k邻近算法改进婚恋网站的配对效果 决策树 实战:使用决策树预测隐形眼镜类型 朴素贝叶斯 实战:使用朴素贝叶斯过滤垃圾邮件 Logistic回归 实战:logistic回归举例-房价预测 支持向量机 实战:应用案例-垃圾邮件分类 |
利用回归预测数值型数据 |
回归算法 Logistics回归 树回归 |
无监督学习算法 |
k-均值聚类算法 实战:对35个中心城市进行聚类分析 Apriori算法 实战:发现毒蘑菇的相似特征 |
数据仓库构建 |
大数据生态圈概述 MapReduce编程框架 数据仓库核心技术 数据仓库模型概述及构建 ETL概述及实战 Sqoop核心技术 Hive核心技术 Hadoop 工作流:Oozie 与 Azkaban Spark生态系统与安装部署 SparkSQL 实战:电商销售订单的数据分析和挖掘 |
互联网平台充值返现活动分析 |
用户的投资数据表,近8万条数据 流量:活跃用户拉伸 投资人数: (1)老客复投人数比,新客拉新情况 (2)参与活动人数情况 投资力度: (1)老客投资力度,新客投资力度 (2)投资结构影响 资金流向:回款复投率,新注入资金情况 成本:活动成本,费效比 |
红包敏感度分析> |
根据统计期间累计使用红包数量、红包使用率,进行K-均值聚类分析,将用户分成8类和4类 计算每个类别下的投资人数、投资金额及占比,红包使用率、个数等 根据聚类的结果及前面的计算结果,判断用户对于红包是否敏感 |
效果评估模型-框架 |
为了什么: (1)精细化管理 (2)精准投放 (3)成本管控 (4)效果评估 需要什么 (1)因子分析 (2)时间序列 (3)业务理解 (4)评估建模 (5)框架设计 怎么实现 (1)SPSS (2)Tableau (3)Excel 最终结果 (1)效果评估 (2)效果排名 (3)用户交互 业务指导 (1)有效成本利用 (2)核心项目锁定 (3)获取用户痛点 (4)拉升业务增长 |
效果评估模型-目的 |
效果评估 精准投放 成本管控 精细化管理 |
建模准备 |
结合业务 数据获取 选择方法 数据清洗 维度考量 (1)体量大小 (2)复投情况 (3)忠诚度 (4)复投力度 数据清洗及加工 (1)数据清洗 (2)数据加工 (3)框架设计 (4)数据评估 |
数据建模 |
SPSS建模 Tableau透视 Excel框架构建 |
业务指导 |
优质渠道 良好渠道 一般渠道 较差渠道 |
业务延伸 |
方案一: 分析平台核心渠道性质 探索和拓展优质渠道 提高优质投放渠道在公司的整体占比 方案二: 模型的不断优化迭代 根据业务发展系统化评估模型 帮助业务实施调整投放策略及后期运营策略 方案三: 运营策略的不断优化迭代 结合每期策略打发,实现AB-test策略实施方式,评估策略实施效果 方案四: 控制成本的有效投入 不断优化成本投入力度 控制公司成本支出,保证公司利润健康增长 |
项目背景 |
某互联网金融公司提供了近6万贷款用户的基本身份信息、用户浏览器行为、银行卡账单等数据信息,需要数据分析师以此建立准确的风险控制模型,来预测用户是否会逾期还款。 |
数据集 |
用户的基本属性:近6万条记录 银行流水记录:900+万条记录 用户浏览行为:2500+万条记录 信用卡账单记录:540+万条记录 放款时间信息:近6万条记录 顾客是否发生逾期行为的记录:近6万条记录 |
数据预处理 |
数据录入 数据统计 从银行交易记录推测工资 用款率 = 本期账单金额/信用卡额度 还款能力 = 上期还款金额 / 上期账单金额 (能看出是否分期) 银行卡种类 还款状态 用户浏览历史 二次数据处理 数据划分 变量筛选 主成分分析 |
数据建模 |
建模公式 建模数据 概率分布 学习率 每次模型训练抽取的特征量 学习多少颗树 交叉验证 运算调用多少CPU核心 |
模型评价及调优 |
模型评价 模型调优 数据预测 模型输出 |