午夜视频免费看_日韩三级电影网站_国产精品久久一级_亚洲一级在线播放_人妻体内射精一区二区三区_91夜夜揉人人捏人人添红杏_91福利在线导航_国产又粗又猛又黄又爽无遮挡_欧美日韩一区在线播放_中文字幕一区二区三区四区不卡 _日日夜夜精品视频免费观看_欧美韩日一区二区三区

主頁 > 知識庫 > python實現(xiàn)scrapy爬蟲每天定時抓取數(shù)據(jù)的示例代碼

python實現(xiàn)scrapy爬蟲每天定時抓取數(shù)據(jù)的示例代碼

熱門標簽:智能電話機器人調(diào)研 江門智能電話機器人 地圖標注可以遠程操作嗎 如何申請400電話代理 杭州房產(chǎn)地圖標注 滴滴地圖標注公司 天津塘沽區(qū)地圖標注 甘肅高頻外呼系統(tǒng) 400電話在線如何申請

1. 前言。

1.1. 需求背景。

  •  每天抓取的是同一份商品的數(shù)據(jù),用來做趨勢分析。
  • 要求每天都需要抓一份,也僅限抓取一份數(shù)據(jù)。
  • 但是整個爬取數(shù)據(jù)的過程在時間上并不確定,受本地網(wǎng)絡(luò),代理速度,抓取數(shù)據(jù)量有關(guān),一般情況下在20小時左右,極少情況下會超過24小時。

1.2. 實現(xiàn)功能。

通過以下三步,保證爬蟲能自動隔天抓取數(shù)據(jù):
每天凌晨00:01啟動監(jiān)控腳本,監(jiān)控爬蟲的運行狀態(tài),一旦爬蟲進入空閑狀態(tài),啟動爬蟲。

一旦爬蟲執(zhí)行完畢,自動退出腳本,結(jié)束今天的任務(wù)。

一旦腳本距離啟動時間超過24小時,自動退出腳本,等待第二天的監(jiān)控腳本啟動,重復(fù)這三步。

2. 環(huán)境。

python 3.6.1

系統(tǒng):win7

IDE:pycharm

安裝過scrapy

3. 設(shè)計思路。

3.1. 前提:

目前爬蟲是通過scrapy模塊自帶的cmdline.execute來啟動的。

from scrapy import cmdline
cmdline.execute('scrapy crawl mySpider'.split())

3.2. 將自動執(zhí)行腳本做到scrapy爬蟲的外部

(1)每天凌晨00:01啟動腳本(控制腳本的存活時間為24小時),監(jiān)測爬蟲的運行狀態(tài)(需要用一個標記信息來表示爬蟲的狀態(tài):運行還是停止)。

  • 如果爬蟲處于運行狀態(tài)(前一天爬取數(shù)據(jù)尚未結(jié)束),進入第(2)步;
  • 如果爬蟲處于非運行狀態(tài)(前一天的爬取任務(wù)已完成,今天的尚未開始),進入第(3)步;

(2)腳本進入等待階段,每隔10分鐘,檢查一下爬蟲的運行狀態(tài),如(1)。但是一旦發(fā)現(xiàn),腳本的等待時間超過了24小時,則自動退出腳本,因為第二天的監(jiān)測腳本已經(jīng)開始運行了,接替了它的任務(wù)。

(3)做一些爬蟲啟動前的準備工作(刪除用來續(xù)爬的文件,防止爬蟲不運行了),啟動爬蟲爬取數(shù)據(jù),待爬蟲正常結(jié)束后,退出腳本,完成當天的爬取任務(wù)。

4. 準備工作。

4.1. 標記爬蟲的運行狀態(tài)。

通過判斷文件是否存在的方式來判斷爬蟲是否處于運行狀態(tài):

  • 在爬蟲啟動時,創(chuàng)建一個isRunning.txt文件。
  • 在爬蟲結(jié)束時,刪除這個isRunning.txt文件。

那么isRunning.txt存在,就說明爬蟲正在運行;文件不存在,就說明爬蟲不在運行。

# 文件pipelines.py
# 爬蟲啟動時
checkFile = "isRunning.txt"
class myPipeline:
  def open_spider(self, spider):
    self.client = MongoClient('localhost:27017') # 連接Mongodb
    self.db = self.client['mydata']        # 待存儲數(shù)據(jù)的數(shù)據(jù)庫mydata
    f = open(checkFile, "w")     # 創(chuàng)建一個文件,代表爬蟲在運行中
    f.close()
# 文件pipelines.py
# 爬蟲正常結(jié)束時
checkFile = "isRunning.txt"
class myPipeline:
  def close_spider(self, spider):
    self.client.close()
    isFileExsit = os.path.isfile(checkFile)
    if isFileExsit:
      os.remove(checkFile)

4.2. 爬蟲支持續(xù)爬,能隨時暫停,方便調(diào)試。

# 在scrapy項目中添加start.py文件,用于啟動爬蟲
from scrapy import cmdline
# 在爬蟲運行過程中,會自動將狀態(tài)信息存儲在crawls/storeMyRequest目錄下,支持續(xù)爬
cmdline.execute('scrapy crawl mySpider -s JOBDIR=crawls/storeMyRequest'.split())
# Note:若想支持續(xù)爬,在ctrl+c終止爬蟲時,只能按一次,爬蟲在終止時需要進行善后工作,切勿連續(xù)多次按ctrl+c

4.3. Log按照每天的日期命名,方便查看和調(diào)試

設(shè)置Log等級:

# 文件mySpider.py
class mySpider(CrawlSpider):
  name = "mySpider"
  allowed_domains = ['http://photo.poco.cn/']
  custom_settings = {
    'LOG_LEVEL':'INFO', # 減少Log輸出量,僅保留必要的信息
    # ...... 在爬蟲內(nèi)部用custom_setting可以讓這個配置信息僅對這一個爬蟲生效
  }

以日期為Log文件命名

# 文件settings.py
import datetime
BOT_NAME = 'mySpider'
ROBOTSTXT_OBEY = False
startDate = datetime.datetime.now().strftime('%Y%m%d')
LOG_FILE=f"mySpiderlog{startDate}.txt"

4.4. 為數(shù)據(jù)按日期存儲到不同的表(mongodb的集合)中

# 文件pipelines.py
import datetime
GALANCE=f'galance{datetime.datetime.now().strftime("%Y%m%d")}' # 表名
class myPipeline:
  def open_spider(self, spider):
    self.client = MongoClient('localhost:27017') # 連接Mongodb
    self.db = self.client['mydata']        # 待存儲數(shù)據(jù)的數(shù)據(jù)庫mydata
self.db[GALANCE].insert(dict(item))

4.5. 編寫批處理文件啟動爬蟲

# 文件run.bat
cd /d F:/newClawer20170831/mySpider
call python main.py
pause

5. 實現(xiàn)代碼

5.1. 編寫python腳本

# 文件timerStartDaily.py
from scrapy import cmdline
import datetime
import time
import shutil
import os

recoderDir = r"crawls"  # 這是為了爬蟲能夠續(xù)爬而創(chuàng)建的目錄,存儲續(xù)爬需要的數(shù)據(jù)
checkFile = "isRunning.txt" # 爬蟲是否在運行的標志

startTime = datetime.datetime.now()
print(f"startTime = {startTime}")

i = 0
miniter = 0
while True:
  isRunning = os.path.isfile(checkFile)
  if not isRunning:            # 爬蟲不在執(zhí)行,開始啟動爬蟲
    # 在爬蟲啟動之前處理一些事情,清掉JOBDIR = crawls
    isExsit = os.path.isdir(recoderDir) # 檢查JOBDIR目錄crawls是否存在
    print(f"mySpider not running, ready to start. isExsit:{isExsit}")
    if isExsit:
      removeRes = shutil.rmtree(recoderDir) # 刪除續(xù)爬目錄crawls及目錄下所有文件
      print(f"At time:{datetime.datetime.now()}, delete res:{removeRes}")
    else:
      print(f"At time:{datetime.datetime.now()}, Dir:{recoderDir} is not exsit.")
    time.sleep(20)
    clawerTime = datetime.datetime.now()
    waitTime = clawerTime - startTime
    print(f"At time:{clawerTime}, start clawer: mySpider !!!, waitTime:{waitTime}")
    cmdline.execute('scrapy crawl mySpider -s JOBDIR=crawls/storeMyRequest'.split())
    break #爬蟲結(jié)束之后,退出腳本
  else:
    print(f"At time:{datetime.datetime.now()}, mySpider is running, sleep to wait.")
  i += 1
  time.sleep(600)    # 每10分鐘檢查一次
  miniter += 10
  if miniter >= 1440:  # 等待滿24小時,自動退出監(jiān)控腳本
    break

5.2. 編寫bat批處理文件

# 文件runTimerRunDaily.bat
cd /d F:/newClawer20170831/mySpider
call python timerStartDaily.py
pause

6. 部署。

6.1. 添加計劃任務(wù)。

參考以下這篇博客部署windows計劃任務(wù):

https://www.jb51.net/article/204879.htm

有關(guān)windows計劃任務(wù)相關(guān)設(shè)置的詳細說明如下:

https://technet.microsoft.com/zh-cn/library/cc722178.aspx

6.2. 注意事項。

(1)在添加計劃任務(wù)時,要按照如下圖進行勾選(只在用戶登錄時運行),才能彈出下面的cmd任務(wù)界面,方便觀察和調(diào)試。

 

(2)由于爬蟲運行時間很長,如果按照默認設(shè)置,在凌晨運行實例時,上一次啟動尚未結(jié)束,會導(dǎo)致這次啟動失敗,所以要更改默認設(shè)置為(如果此任務(wù)已經(jīng)運行:并行運行新實例。保護機制在于每個啟動腳本在等待24小時候會自動退出,來保證不會重復(fù)啟動)。

(3)如果想支持續(xù)傳,只能按一次 ctrl + c 來停止爬蟲運行。因為終止爬蟲時,爬蟲需要做一些善后工作,如果連續(xù)按多次ctrl + c來停止爬蟲,爬蟲將來不及善后,會導(dǎo)致無法續(xù)爬。 6.3. 效果展示。

正常執(zhí)行完成:

正在執(zhí)行中:

到此這篇關(guān)于python實現(xiàn)scrapy爬蟲每天定時抓取數(shù)據(jù)的示例代碼的文章就介紹到這了,更多相關(guān)python scrapy定時抓取內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • Python爬蟲框架-scrapy的使用
  • python scrapy項目下spiders內(nèi)多個爬蟲同時運行的實現(xiàn)
  • python爬蟲scrapy基本使用超詳細教程
  • 在python3.9下如何安裝scrapy的方法
  • python Scrapy爬蟲框架的使用
  • Python爬蟲基礎(chǔ)之初次使用scrapy爬蟲實例

標簽:河池 東莞 漢中 臨汾 德宏 重慶 長春 廊坊

巨人網(wǎng)絡(luò)通訊聲明:本文標題《python實現(xiàn)scrapy爬蟲每天定時抓取數(shù)據(jù)的示例代碼》,本文關(guān)鍵詞  python,實現(xiàn),scrapy,爬蟲,每天,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《python實現(xiàn)scrapy爬蟲每天定時抓取數(shù)據(jù)的示例代碼》相關(guān)的同類信息!
  • 本頁收集關(guān)于python實現(xiàn)scrapy爬蟲每天定時抓取數(shù)據(jù)的示例代碼的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    中文字字幕码一二三区| 日本在线观看不卡视频| 日本高清久久一区二区三区| 国产裸体歌舞团一区二区| 北条麻妃在线视频| 西游记1978| 97高清免费视频| 一区二区三区久久| 手机av在线免费观看| 国产精品嫩草影院久久久| 日韩欧美国产一区二区| 中文字幕乱码人妻无码久久 | 91黄色免费观看| 亚洲欧美日韩国产成人精品影院| 午夜精品视频一区| 欧美精品 日韩| 日韩人在线观看| 99麻豆久久久国产精品免费| www.欧美色| 国产va亚洲va在线va| 欧美激情在线一区| 欧美福利一区二区| 久久久91视频| 国产日韩一区二区在线观看| 亚洲欧美电影在线观看| 影音先锋日韩有码| 亚洲天堂a在线| 九九视频免费在线观看| 99热一区二区三区| 国产主播在线一区| 国产伦精品一区二区三区免| 青青草影院在线观看| 少妇大叫太大太粗太爽了a片小说| 天堂资源在线亚洲视频| 国产精品高潮粉嫩av| 日韩电影中文 亚洲精品乱码 | 午夜视频在线网站| 青青青国产精品一区二区| 精品中文字幕一区二区| 欧美不卡视频在线观看| 中文字幕精品视频在线观看| 你懂的在线观看网站| 久久精品国产精品亚洲精品色| 人人爽久久涩噜噜噜网站| 久久www免费人成看片高清| 91看片在线免费观看| 看欧美ab黄色大片视频免费 | 131美女爱做视频| 青娱乐国产精品视频| 久久久久亚洲av片无码v| 一本久久a久久精品vr综合| 欧美黑人巨大xxx极品| 精品三级在线看| 欧洲人成人精品| 波多野结衣在线观看视频| 女人被狂躁c到高潮| 免费在线一区二区三区| 亚洲黄色a v| 天天爱天天做天天操| 青青成人在线| 91精品国产综合久久久蜜臀图片 | 免费av在线一区二区| www.日本xxxx| 男女性杂交内射妇女bbwxz| 免费网站看av| 国产午夜精品无码一区二区| 日本网站在线播放| 成人免费网站黄| 亚洲无在线观看| 国产偷人视频免费| 欧美一区二区影视| 欧美色综合网站| 欧美亚洲精品在线观看| 三级a在线观看| 欧美一区二区三区喷汁尤物| 亚洲白虎美女被爆操| 色综合久久综合网| 午夜精品久久久久久久99水蜜桃| 亚洲电影激情视频网站| 欧美精品一区二区三区视频| 国产精品免费一区二区三区四区| 九九久久久久久| 日本一区二区欧美| www.爱爱.com| 国内精品偷拍视频| 日韩伦人妻无码| 欧美老女人性生活视频| 成人黄色短视频| 国产99久久久久久免费看| 91视频成人免费| 欧美床上激情在线观看| 亚洲成精国产精品女| 日日骚欧美日韩| 偷拍精品一区二区三区| 六月婷婷色综合| 亚洲精品国产手机| 日韩精品每日更新| 国产日产欧美一区二区三区| 亚洲图片欧洲图片av| 免费在线成人av电影| 亚洲一级免费在线观看| 成人三级视频在线观看| 一区二区三区视频免费看| 久久久黄色大片| 啦啦啦免费高清视频在线观看| 99热国产在线观看| 成人毛片一区二区三区| 日本在线观看a| 国产免费一区二区| 久久露脸国产精品| 日韩午夜在线观看| 欧美激情一区二区三区成人| 亚洲a中文字幕| 国产精品v欧美精品v日韩| 无码人妻精品一区二区三区99v| 中文字幕第22页| 国产精品无码免费播放| 欧美久久久久免费| 亚洲欧美国产精品桃花| 国产乡下妇女做爰毛片| 色噜噜一区二区三区| 久久夜色精品一区| 亚洲综合视频在线观看| 欧美视频一区二区在线观看| 亚洲福利视频在线| 懂色一区二区三区av片| 亚洲精品国产综合区久久久久久久 | 图片区小说区国产精品视频| 国产一区二区三区18| 国产综合色香蕉精品| 99porn视频在线| 日韩视频一二三| 人妻熟人中文字幕一区二区| 久久综合色综合88| 国产精品一二三在线| 久久久久久国产精品视频| www久久精品| 日韩在线观看成人| 日韩免费av电影| 一个人看的视频www| 国产嫩bbwbbw高潮| 日精品一区二区| 午夜精品久久久久久久久| 亚洲成人精品影院| 亚洲欧洲日韩综合一区二区| 亚洲国产精品99久久| 波多野结衣激情| av天堂一区二区| 国产三级小视频| 午夜久久久久久久久久一区二区| 欧美自拍丝袜亚洲| 亚洲精品少妇网址| 亚洲在线观看一区| 天天干中文字幕| 337p粉嫩大胆色噜噜噜噜亚洲| 人人澡人人澡人人看欧美| 免费麻豆国产一区二区三区四区| 亚洲欧洲一区二区在线播放| 成人伊人精品色xxxx视频| 免费在线a视频| 337p粉嫩色噜噜噜大肥臀| 高清在线成人网| 亚洲精品一区在线观看香蕉| 先锋影音男人资源| 大尺度做爰床戏呻吟舒畅| 国产无遮挡又黄又爽又色| 中文字幕乱码一区二区| 777xxx欧美| 狠狠干 狠狠操| 97人妻精品一区二区三区免 | 91精品国产综合久久精品| 一区二区三区四区av| 日本精品在线视频| 日韩视频免费在线播放| 亚洲精品国产a| 精品一区二区三区欧美| 人人草在线观看| a毛片毛片av永久免费| 国产特级黄色大片| 欧美裸体网站| 国产精品女视频| 日韩在线观看免费全集电视剧网站| 91福利国产成人精品照片| 久久精品男人的天堂| 亚洲人妻一区二区| 国产一级免费视频| 国产小视频自拍| 四季av一区二区| 亚洲一区二区在线免费观看| 成人精品一区二区三区电影免费| 久久精品人人做人人爽| 欧美成人乱码一区二区三区| 精品国产精品自拍| 国产精品女人毛片| 国产成人超碰人人澡人人澡| 亚洲AV无码精品色毛片浪潮| 永久免费看片在线播放| 国产精品天天干| 在线免费看v片| 国产美女在线一区| 亚洲精品自在在线观看| 国产精品日韩一区二区三区| 国产不卡av在线免费观看| 久久久成人精品视频| 亚洲国产精品va在线看黑人| 欧美日韩三级在线| 午夜精品福利一区二区蜜股av| 国产欧美日韩三级| 国产成人无遮挡在线视频| 亚洲人视频在线观看| 91在线观看喷潮| 免费黄色网址在线| 久久久精品视频在线| 欧美亚洲色综久久精品国产| xfplay5566色资源网站| 国产精品视频中文字幕| 伊人成色综合网| 国产性生活免费视频| 日韩av图片| 久久精品aaaaaa毛片| 97在线中文字幕| 国产欧美一区二区三区久久| 18一19gay欧美视频网站| 欧美国产日韩一区二区| 久久精品影视伊人网| 国产一区二区日韩| 亚洲视频在线观看视频| 精品香蕉一区二区三区| 欧美成人vr18sexvr| 欧美一区二区视频网站| 欧美日韩成人综合| 欧美色区777第一页| 日韩欧美在线观看视频| 欧美日韩国产中文字幕| 精品国产91乱高清在线观看| 亚洲1区2区3区4区| 亚洲成人在线网站| 亚洲大片在线观看| 午夜私人影院久久久久| 午夜欧美一区二区三区在线播放| 一区二区三区欧美视频| 亚洲一区免费视频| 亚洲一区二区中文在线| 亚洲成人自拍偷拍| 精品久久久久久久久久久久| 欧美日韩性视频在线| 欧美日韩国产一区二区| 色综合一区二区三区| 91国产丝袜在线播放| 91国产成人在线| 欧美日韩电影在线| 欧美刺激脚交jootjob| 亚洲国产欧美精品| 国产一区二区三区视频免费| 色777狠狠综合秋免鲁丝| 久久成年人免费电影| 久久久久久美女| 日韩av电影在线免费播放| 国产精品久久久久久久久久久久久久 | 日韩欧美一区二区在线观看 | 天天色综合久久| 奇米色一区二区三区四区| 精品中文字幕一区二区小辣椒 | 亚洲av无码一区二区三区在线| 成人高潮免费视频| 国产高潮久久久| 一区二区久久精品66国产精品| 国产毛片毛片毛片毛片| 亚洲 小说区 图片区 都市| 久久av资源站| 91在线视频在线| 国产精品家庭影院| 天天射综合影视| 欧美视频精品在线| 日韩av影视综合网| 久久成人av网站| 欧美精品video| 成人乱人伦精品视频在线观看| 国产综合欧美在线看| 裸体裸乳免费看| 亚洲色图38p| a视频免费观看| 国产1区2区3区4区| 中文字幕精品一区二区精| 午夜性色福利影院| av欧美精品.com| 亚洲黄色片在线观看| 欧美视频在线观看一区| 日韩国产激情在线| 久久免费精品视频| 99久久自偷自偷国产精品不卡| 先锋影音一区二区三区| 漂亮人妻被中出中文字幕| 欧美双性人妖o0| 久久久全国免费视频| 国产又粗又猛又爽又黄视频 | 97精品国产aⅴ7777| 亚洲一区免费网站| www.-级毛片线天内射视视| 国产免费又粗又猛又爽| 一区二区黄色片| 一级特黄免费视频| 久久国内精品视频| 国产精品国产三级国产专播品爱网| 色香蕉久久蜜桃| 亚洲人成在线观看网站高清| 青青在线视频一区二区三区| 日本在线观看不卡| www.com黄色片| 亚洲欧美精品久久| av中文字幕播放| 不卡欧美aaaaa| 五月婷婷久久丁香| 亚洲人高潮女人毛茸茸| 国产精品久久久久99| 一区二区视频在线播放| 色偷偷中文字幕| 久久精品视频久久| 日韩国产精品大片| 亚洲天堂av老司机| 亚洲成人999| 国产福利精品av综合导导航| 视频在线99re| 韩国三级在线播放| 日本中文字幕久久| 国产精品456| 色综合天天性综合| 久久久精品亚洲| 国产美女精品久久久| 嫩草av久久伊人妇女超级a| 欧美一区免费观看| 欧洲精品久久一区二区| 国产视频一区二区三区在线观看| 欧美高清激情brazzers| 97国产真实伦对白精彩视频8| 一级日韩一区在线观看| 黄色av网址在线观看| 亚洲网站在线免费观看| 91免费观看国产| 日韩视频在线你懂得| 国产精品第一页在线| 国产美女永久无遮挡| 亚洲精品成人av久久| 国产日本精品视频| 国产亚洲欧洲997久久综合| 日韩精品最新网址| 国产日韩欧美在线观看| 国产最新免费视频| 国产无码精品在线观看| 国产精品资源网站| 欧美人狂配大交3d怪物一区 | 亚洲一区二区不卡视频| 在线精品一区二区三区| av中文字幕观看| 亚洲啪啪综合av一区二区三区| 亚洲一区二区久久久| 极品日韩久久| 肉丝美足丝袜一区二区三区四| 你懂的国产在线| 91在线观看高清| 欧美一区二区大片| 91网站在线看| 想看黄色一级片| 国产又黄又爽视频| 亚洲人一二三区| 久久精品男人天堂| 影音先锋成人资源网站| 日韩视频中文字幕在线观看| 国产一区二区三区不卡在线观看| 欧美日韩mp4| 亚洲精品欧美日韩| 佐佐木明希电影| 人妻精品无码一区二区| 亚洲va欧美va人人爽| 97在线免费观看| 国产中文字幕在线免费观看| 日韩精品在线观看免费| 国产日韩欧美在线一区| 色哟哟入口国产精品| 中文字幕一区二区三区5566| 小泽玛利亚一区| 不卡av在线网| 一区二区三区美女xx视频| 一区二区成人国产精品 | 疯狂欧美牲乱大交777| 欧美做受高潮1| 高潮一区二区三区| 亚洲精品成人电影| 色综合天天性综合| 91精品国产自产在线老师啪| 一级黄色免费毛片| 亚洲欧美综合一区二区| 欧美精品少妇一区二区三区| 亚洲伊人成综合成人网| 亚洲成av人片在线观看无| 男女视频一区二区| 日韩欧美国产三级电影视频| 精品国产区在线| 天堂av免费在线| 91农村精品一区二区在线| 丝袜情趣国产精品| 欧美在线观看www| 91精品国产乱码久久久| 欧美日韩美女视频| 91视频-88av| 网爆门在线观看| 久久一日本道色综合| 久久久亚洲天堂| 日本不卡一区在线| 日韩精品欧美成人高清一区二区|