国产成人AV无码一二三区,少女1到100集,国产精品久久久久精品综合紧,巜公妇之诱感肉欲HD在线播放

文章 > Python爬虫 > 看kindle网站电子书用Python爬取下载

看kindle网站电子书用Python爬取下载

头像

Python

2019-05-31 14:20:038162浏览 · 0收藏 · 0评论

一个下载看kindle(kankindle.com)的所有电子书的python脚本,程序会自动下载首页部分13页的所有电子书,下载到ebook目录下,程序会检测是否下载过。

 

#!/usr/bin/env python
# coding=utf-8
from bs4 import BeautifulSoup
import urllib2
import socket
import re
import unicodedata
import os
from urwid.text_layout import trim_line
def download(url):
    print 'starting download %s' % url
    response=urllib2.urlopen(url,timeout=30)
    html_data=response.read()
    
    soup=BeautifulSoup(html_data)
    print 'start to analayse---------------'
    
    
    title_soup=soup.find_all(class_='yanshi_xiazai')
    name_soup = soup.find_all('h1')
    tag_a = title_soup[0].a.attrs['href']
    tag_name= title_soup[0].a.contents
    link_name = name_soup[0]
    link_name = str(link_name).replace("<h1>","").replace("</h1>","")
    #print tag_name[0]
    #print link_name
    
    
    filename = link_name+".mobi"
    filename = "ebook/"+filename
    print 'filename is :%s' % filename
    
    print "downloading with urllib2 %s" % tag_a
    if os.path.exists(filename):
        print 'already donwload ,ignore'
    else:
        try:
            f = urllib2.urlopen(tag_a,timeout=60)
            data = f.read()
            #print 'the data is %s'% data
            with open(filename, "wb") as code:
                code.write(data)
        except Exception,e:
            print e
def get_all_link(url):
    print 'Starting get all the list'
    response=urllib2.urlopen(url,timeout=30)
    html_data=response.read()
    #print html_data
    
    soup=BeautifulSoup(html_data)
    link_soup = soup.find_all('a')
    #print link_soup
   
    for each_link in link_soup:
        if re.search('view',str(each_link)):
            #print each_link
            print each_link
            print each_link.attrs['href']
            download(each_link.attrs['href'])
if __name__ == '__main__':
    for page in range(1,13):
        url = "http://kankindle.com/simple/page/3"+str(page)
        url = url.strip()
        print url
        get_all_link(url)
关注

关注公众号,随时随地在线学习

本教程部分素材来源于网络,版权问题联系站长!

四虎网站| 《帐篷里的秘密》动漫| 老和尚的大东西| 泰剧《劈开你的腿》免费观看| EXO妈妈MV高清视频播放| 俩个人做AJ的视频教程大全| 二人努力生猴子免费观看| 房东老头揉捏吃我奶头影片| 一晚上要了小姑娘三次!| 久久久无码AV精品夜夜挺价格| 双面玛莎| 三女片免费观看电视剧杨贵妃传| 宝贝今天可不可以不带小雨伞| 妈妈你真棒插曲视频快来救救我| TOUPAIZIPAI| 老师穿裙子没有穿内裤| 粗大挺进亲女小雅小| 小饰品| 性别饥饿妈妈| 韩剧《我的瑜伽教练》| 爷爷的鸡又黑又长下一句怎么接| 双男主做酱酱酿酿视频大全真人版| 连体裤| 17.C-起草口在哪| 年轻的嫂子2| 暴躁妹妹CSGO直播| 亲吻拔萝卜原声不带歌词抓奶| 台湾《洞门为君开》演员表| 《黏糊糊的你》动漫免费观看 | 少妇激情偷公乱140章| 特殊按摩治疗师| 美国大片又大又好看的PPT| 公厕被偷窃视频大全| 妈妈的职业4免费观看完整版高清| BOBO浏览器老司机模式改版特..| 人野兽马狗猪大全| 《晚上准备好纸巾》| 美国禁忌| 一路向西在线观看剧情电影| 乱肉辣伦短文(全肉)| 女狼俱乐部