python 淘宝爬虫 python爬虫怎么做

【python 淘宝爬虫 python爬虫怎么做】
Python 爬虫怎么做?
这是一个长期学习的过程,这里有一个系列的教程,还在持续更新中,如果感兴趣的可以看看 。

原文:***/TwoWater/Python
IT 行业相对于一般传统行业,发展更新速度更快,一旦停止了学习,很快就会被行业所淘汰,但是,我们要清楚:淘汰的永远只是那些初级水平的从业者,过硬技术的从业者永远都是稀缺的 。因此对于学习,我们还是要踏踏实实的 。
自学 Python ,也是一样 , 不要一开始因为头脑发热就不停地收藏各种资料网站 , 购买各种书籍 , 下载了大量的教学视频,过了几天,学习的热情开始褪去,再过几个星期,终于完成了学习课程 —— 《从入门到放弃》 。所以,学习 Python 需要一步一个脚印,踏踏实实地学 。
FQ
在讲 Python 如何入门之前 , 个人建议最好每个人都有自己的 FQ 工具,多使用 Google 搜索,多去看一下墙外的世界,多看 Github 上的开源项目 。
至于如何 FQ ,这里提供一下我用过的工具:FQ工具集「***/TwoWater/Python/blob/master/Res/FQ.md」
Python 学习资源集
相信很多人学习某门编程语言的时候,都会找各种学习资料 。说句实话 , 资料太多,反而没用,根据自己的学习习惯,个人能力选择一门资源坚持学就好了 。
因为每个人的需求不同,这里整理了一批 Python 比较好的学习资料:
  • Python 博客网站资源「***/TwoWater/Python/blob/master/Res/Python%E5%8D%9A%E5%AE%A2%E7%BD%91%E7%AB%99%E8%B5%84%E6%BA%90.md」
  • Python 视频教程资源「***/TwoWater/Python/blob/master/Res/Python%E5%8D%9A%E5%AE%A2%E7%BD%91%E7%AB%99%E8%B5%84%E6%BA%90.md」
Python 入门
对于入门,主要是掌握基本的语法和熟悉编程规范,因此大部分的教程基本一致的,所以还是建议选好适合自己的一个教程,坚持学下去 。
在 Python 入门中,本人自己编写了一系列的 《 草根学 Python 》 博客 ,  是基于 Python 3.6 写的 Python 入门系列教程,为了更好的阅读,把它整理在 GitBook 上;如果 GitBook 访问慢,也可以到个人博客查阅:草根学 Python,希望对各位入门 Python 有所帮助 。
主要目录如下:
  • Python代码规范
    • 简明概述
    • 注释
    • 命名规范
  • 第一个Python程序
    • Python 简介
    • Python 的安装
    • 第一个 Python 程序
    • 集成开发环境(IDE): PyCharm
  • 基本数据类型和变量
    • Python 语法的简要说明
    • Python 的基本数据类型
    • 基本数据类型转换
    • Python 中的变量
  • List 和 Tuple
    • List(列表)
    • tuple(元组)
  • Dict 和 Set
    • 字典(Dictionary)
    • set
  • 条件语句和循环语句
    • 条件语句
    • 循环语句
    • 条件语句和循环语句综合实例
  • 函数
    • Python 自定义函数的基本步骤
    • 函数传值问题
    • 函数返回值
    • 函数的参数
    • 匿名函数
  • 迭代器和生成器
    • 迭代
    • Python 迭代器
    • lsit 生成式(列表生成式)
    • 生成器
    • 迭代器和生成器综合例子
  • 模块与包
    • Python 模块简介
    • 模块的使用
    • 主模块和非主模块
    • 作用域
  • 面向对象
    • 面向对象的概念
    • 类的属性
    • 类的方法
    • 类的继承
    • 类的多态
  • Python 的 Magic Method
    • Python 的 Magic Method
    • 构造()和初始化()
    • 属性的访问控制
    • 对象的描述器
    • 自定义容器(Container)
    • 运算符相关的魔术方法
  • 枚举类
    • 枚举类的使用
    • Enum 的源码
    • 自定义类型的枚举
    • 枚举的比较
  • 元类
    • Python 中类也是对象
    • 使用 动态创建类
    • 什么是元类
    • 自定义元类
    • 使用元类
  • 线程与进程
    • 线程与进程
    • 多线程编程
    • 进程
  • 一步一步了解正则表达式
    • 初识 Python 正则表达式
    • 字符集
    • 数量词
    • 边界匹配符和组
    • re.sub
    • re.match 和 re.search
  • 闭包
  • 装饰器
知识点补漏
  • Python 关键字 yield
Python 进阶
  • 使用Python虚拟环境
  • Mac中使用virtualenv和virtualenvwrapper
Django
Python 下有许多款不同的 Web 框架 。Django 是重量级选手中最有代表性的一位 。许多成功的网站和 APP 都基于 Django 。
如果对自己的基础有点信息的童鞋,可以尝试通过国外进行入门,这个教程讲的非常的详细,而且还有很多有趣的配图 。不过可能因为墙的原因 , 很多人会访问不到,就算访问到了 , 也因为是英语的,不会进行耐心的阅读学习 。因此我打算翻译这个教程 。
  • 一个完整的初学者指南Django-part1
  • 一个完整的初学者指南Django-part2
后面经一个朋友说,这个教程已经有人在翻译了,因此我也不翻译了,不过感觉我的翻译还是挺好的 , 因为不是直译的,是通过了解后,用自己的语言再次表达出来 。
这里有上面这个教程翻译计划的 Github 以及 博客,觉得哪个看得舒服,就选哪个进行学习 。
入门来说,其实很简单,只要你对网页有一定的了解 , 有一点python基础,很快就能上手 。python里边有许多现成的用于做爬虫的包,像urllib,urllib2,requests等,解析网页有bs4,lxml,正则表达式等,我经常用到的就是requests+BeautifulSoup爬网页,对于爬取基本常见的网页就足以了,requests(get或post)下载网页,BeautifulSoup解析网页,find查找获取你需要的数据就可以,然后存到mysql或mongodb中,一个基本的爬虫就成了,像爬去糗百,批量下载图片、视频等都可以,如果你想进一步深入了解爬虫 , 可以了解一下scrapy框架和多线程,分布式爬虫 。

经验总结扩展阅读