#一、数据挖掘的定义
|什么是数据挖掘?
- 数据挖掘是一个用数据发现问题、解决问题的学科 。
- 通常通过对数据的探索、处理、分析或建模实现 。
- 大学里并没有数据挖掘这么一个专业,现有的数据挖掘工程师大都来自工科或统计学等专业 。
- 目前的数据挖掘工程师大都来自不同背景,计算机科学、数学甚至是机械工程 。要想成功胜任,其诀窍是热情、好奇心 , 不断学习新的工具的能力,以及对数据清洗和分析的耐心 。
- 最重要的三个品质:好奇心、是非观以及批判性思考 。这三个品质 , 放在其他领域同样适用 。
- 专业领域的三种能力:编程能力、统计基础、商业思维 。编程和统计在大学较为容易学到,商业思维需要多实践总结 。
【如何看待数据挖掘,数据挖掘有前途吗】
|数据挖掘工程师的一天
- 检查日常报表数据是否异常,寻求数据波动的合理解释 。
- 针对新业务 , 设计指标,搭建数据模型 。
- 搭建商品推荐系统、价格预测系统、文本分类系统或是聊天机器人 。
- 使用复杂的机器学习算法并不能保证效果 。一般来讲,最好的解决办法,通常很简单 。
- 生产环境使用简单的算法 , 并不意味着要放弃前沿算法 。每一套新的方法,其目的都在解决前面的薄弱之处 。
- 本地 PC 由于硬件与系统限制,工程师常在服务器进行大规模数据的运算、脚本部署与接口部署 。
|作为公司,该如何开展数据挖掘
- 评估可能的收益与需要的投入
- 开始收集数据
- 招募数据挖掘团队
- 好奇心应该是数据挖掘从业者的最重要品质 。
- 招聘时,应确保候选人对工作内容感兴趣 。
- 候选人应具备一定的成果意识 。商业更重成果,而不是过程 。
- 广告位点击预估
- 信用卡风控评估
- 用户流失干预
|数据挖掘工具与大数据
- 掌握以下工具:Python、Linux、Pandas 及 Jupyter、关系型和非关系型数据库 。
- 大数据通常指传统数据系统无法处理的数据 。体量和增速都相当大 。处理工具以 Hadoop 为代表 。
|神经网络和深度学习
- 神经网络出现已数十年,但由于条件限制,这一方向搁置了数十年 。目前随着新的优化方法的出现和算力的提升 , 这一方向的工业化逐渐成为可能 。
- 掌握基本的编程知识,更多地去理解背后的原理 。
- 流程化意识 , 及时复盘总结,规范流程(复用) 。
- 成果导向,将知识转化为行动和成果,给他人带来价值 , 服务更多人 。