2022年 11月 7日

Python爬虫下载PDF文件

requests库

def get_file_content(date,files):
    time = date[0:4] + date[5:7]
    file_name = files[0][1]
    suburl = homepage + time + r'/' + files[0][0]     # 拼接出正确的URL
    r = requests.get(suburl)
    fo = open(file_name,'wb')                         # 注意要用'wb',b表示二进制,不要用'w'
    fo.write(r.content)                               # r.content -> requests中的二进制响应内容:以字节的方式访问请求响应体,对于非文本请求
    fo.close()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

urllib

 u = urllib.request.urlopen(suburl)
    f = open(file_name, 'wb')

    block_sz = 8192
    while True:
        buffer = u.read(block_sz)
        if not buffer:
            break

        f.write(buffer)
    f.close()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11