【python 淘宝爬虫 python爬虫怎么做】
Python 爬虫怎么做?
这是一个长期学习的过程,这里有一个系列的教程,还在持续更新中,如果感兴趣的可以看看 。
原文:***/TwoWater/PythonIT 行业相对于一般传统行业,发展更新速度更快,一旦停止了学习,很快就会被行业所淘汰,但是,我们要清楚:淘汰的永远只是那些初级水平的从业者,过硬技术的从业者永远都是稀缺的 。因此对于学习,我们还是要踏踏实实的 。
自学 Python ,也是一样 , 不要一开始因为头脑发热就不停地收藏各种资料网站 , 购买各种书籍 , 下载了大量的教学视频,过了几天,学习的热情开始褪去,再过几个星期,终于完成了学习课程 —— 《从入门到放弃》 。所以,学习 Python 需要一步一个脚印,踏踏实实地学 。
FQ
在讲 Python 如何入门之前 , 个人建议最好每个人都有自己的 FQ 工具,多使用 Google 搜索,多去看一下墙外的世界,多看 Github 上的开源项目 。
至于如何 FQ ,这里提供一下我用过的工具:FQ工具集「***/TwoWater/Python/blob/master/Res/FQ.md」
Python 学习资源集
相信很多人学习某门编程语言的时候,都会找各种学习资料 。说句实话 , 资料太多,反而没用,根据自己的学习习惯,个人能力选择一门资源坚持学就好了 。
因为每个人的需求不同,这里整理了一批 Python 比较好的学习资料:
- Python 博客网站资源「***/TwoWater/Python/blob/master/Res/Python%E5%8D%9A%E5%AE%A2%E7%BD%91%E7%AB%99%E8%B5%84%E6%BA%90.md」
- Python 视频教程资源「***/TwoWater/Python/blob/master/Res/Python%E5%8D%9A%E5%AE%A2%E7%BD%91%E7%AB%99%E8%B5%84%E6%BA%90.md」
对于入门,主要是掌握基本的语法和熟悉编程规范,因此大部分的教程基本一致的,所以还是建议选好适合自己的一个教程,坚持学下去 。
在 Python 入门中,本人自己编写了一系列的 《 草根学 Python 》 博客 , 是基于 Python 3.6 写的 Python 入门系列教程,为了更好的阅读,把它整理在 GitBook 上;如果 GitBook 访问慢,也可以到个人博客查阅:草根学 Python,希望对各位入门 Python 有所帮助 。
主要目录如下:
- Python代码规范
- 简明概述
- 注释
- 命名规范
- 第一个Python程序
- Python 简介
- Python 的安装
- 第一个 Python 程序
- 集成开发环境(IDE): PyCharm
- 基本数据类型和变量
- Python 语法的简要说明
- Python 的基本数据类型
- 基本数据类型转换
- Python 中的变量
- List 和 Tuple
- List(列表)
- tuple(元组)
- Dict 和 Set
- 字典(Dictionary)
- set
- 条件语句和循环语句
- 条件语句
- 循环语句
- 条件语句和循环语句综合实例
- 函数
- Python 自定义函数的基本步骤
- 函数传值问题
- 函数返回值
- 函数的参数
- 匿名函数
- 迭代器和生成器
- 迭代
- Python 迭代器
- lsit 生成式(列表生成式)
- 生成器
- 迭代器和生成器综合例子
- 模块与包
- Python 模块简介
- 模块的使用
- 主模块和非主模块
- 包
- 作用域
- 面向对象
- 面向对象的概念
- 类
- 类的属性
- 类的方法
- 类的继承
- 类的多态
- Python 的 Magic Method
- Python 的 Magic Method
- 构造()和初始化()
- 属性的访问控制
- 对象的描述器
- 自定义容器(Container)
- 运算符相关的魔术方法
- 枚举类
- 枚举类的使用
- Enum 的源码
- 自定义类型的枚举
- 枚举的比较
- 元类
- Python 中类也是对象
- 使用 动态创建类
- 什么是元类
- 自定义元类
- 使用元类
- 线程与进程
- 线程与进程
- 多线程编程
- 进程
- 一步一步了解正则表达式
- 初识 Python 正则表达式
- 字符集
- 数量词
- 边界匹配符和组
- re.sub
- re.match 和 re.search
- 闭包
- 装饰器
- Python 关键字 yield
- 使用Python虚拟环境
- Mac中使用virtualenv和virtualenvwrapper
Python 下有许多款不同的 Web 框架 。Django 是重量级选手中最有代表性的一位 。许多成功的网站和 APP 都基于 Django 。
如果对自己的基础有点信息的童鞋,可以尝试通过国外进行入门,这个教程讲的非常的详细,而且还有很多有趣的配图 。不过可能因为墙的原因 , 很多人会访问不到,就算访问到了 , 也因为是英语的,不会进行耐心的阅读学习 。因此我打算翻译这个教程 。
- 一个完整的初学者指南Django-part1
- 一个完整的初学者指南Django-part2
这里有上面这个教程翻译计划的 Github 以及 博客,觉得哪个看得舒服,就选哪个进行学习 。
入门来说,其实很简单,只要你对网页有一定的了解 , 有一点python基础,很快就能上手 。python里边有许多现成的用于做爬虫的包,像urllib,urllib2,requests等,解析网页有bs4,lxml,正则表达式等,我经常用到的就是requests+BeautifulSoup爬网页,对于爬取基本常见的网页就足以了,requests(get或post)下载网页,BeautifulSoup解析网页,find查找获取你需要的数据就可以,然后存到mysql或mongodb中,一个基本的爬虫就成了,像爬去糗百,批量下载图片、视频等都可以,如果你想进一步深入了解爬虫 , 可以了解一下scrapy框架和多线程,分布式爬虫 。
