爬虫-url

urllib是python内置的HTTP请求库,包含以下4个模块:

  • request:请求模块,模拟发送请求,需要给库方法传入url
  • error:异常处理模块,如果出现错误可以捕获,进行重试或其他操作
  • parse:工具模块,提供给了很多url处理方法,比如拆分,解析,合并等
  • rotbotparser:识别网站的robot.txt文件

urlopen()

请求方法:

response = urllib.request.urlopen(‘https://www.python.org')