LOADING

数据采集

本课程首先介绍网络爬虫的基本知识和开发环境配置。然后分别从网络爬虫的爬取、解析、存储三个层面进行了详细的介绍。之后在进阶部分介绍了多种目前广泛使用的爬虫工具和实用框架,并且扩展介绍了一些数据挖掘的工具是如何实用的。同时,本课程对网络爬虫的若干实践问题进行讨论,包括动态内容下载,模拟登陆,验证码识别等。在理论教学的同时,对Python的常用网络库进行介绍,包括urllib,Lxml,Beatiful

  • 名称:数据采集

本课程首先介绍网络爬虫的基本知识和开发环境配置。然后分别从网络爬虫的爬取、解析、存储三个层面进行了详细的介绍。之后在进阶部分介绍了多种目前广泛使用的爬虫工具和实用框架,并且扩展介绍了一些数据挖掘的工具是如何实用的。同时,本课程对网络爬虫的若干实践问题进行讨论,包括动态内容下载,模拟登陆,验证码识别等。在理论教学的同时,对Python的常用网络库进行介绍,包括urllib,Lxml,BeatifulSoup和Scrapy等。


1章   初识网络爬虫

介绍网络爬虫的基本概念、工作原理以及开发环境。


2章   爬取数据

介绍HTTP协议相关知识、目标网页的解析、爬虫抓取策略。


3章   抽取数据

主要讲解正则表达式、BeautifulSoup等数据抽取方法。


4章   数据存储

主要讲解数据的结构化存储、写入文件和写入数据库。


5章   爬虫进阶

讲解了常见的反爬虫机制及应对策略、爬虫性能优化和常用的爬虫框架。


6章   实际应用

讲解了网络爬虫在实际的数据挖掘工作中的应用场景。