亚洲最大福利视频,日本精品免费,久久久久久夜

主頁 > 知識庫 > python基于搜索引擎實(shí)現(xiàn)文章查重功能

python基于搜索引擎實(shí)現(xiàn)文章查重功能

前言

文章抄襲在互聯(lián)網(wǎng)中普遍存在，很多博主都收受其煩。近幾年隨著互聯(lián)網(wǎng)的發(fā)展，抄襲等不道德行為在互聯(lián)網(wǎng)上愈演愈烈，甚至復(fù)制、黏貼后發(fā)布標(biāo)原創(chuàng)屢見不鮮，部分抄襲后的文章甚至標(biāo)記了一些聯(lián)系方式從而使讀者獲取源碼等資料。這種惡劣的行為使人憤慨。

本文使用搜索引擎結(jié)果作為文章庫，再與本地或互聯(lián)網(wǎng)上數(shù)據(jù)做相似度對比，實(shí)現(xiàn)文章查重；由于查重的實(shí)現(xiàn)過程與一般情況下的微博情感分析實(shí)現(xiàn)流程相似，從而輕易的擴(kuò)展出情感分析功能（下一篇將在此篇代碼的基礎(chǔ)上完成數(shù)據(jù)采集、清洗到情感分析的整個過程）。

由于近期時間上并不充裕，暫時實(shí)現(xiàn)了主要功能，細(xì)節(jié)上并沒有進(jìn)行優(yōu)化，但是在代碼結(jié)構(gòu)上進(jìn)行了一些簡要的設(shè)計(jì)，使得之后的功能擴(kuò)展、升級更為簡便。我本人也將會持續(xù)更新該工具的功能，爭取讓這個工具在技術(shù)上更加的成熟、實(shí)用。

技術(shù)

本文實(shí)現(xiàn)的查重功能為了考慮適配大多數(shù)站點(diǎn)，從而使用selenium用作數(shù)據(jù)獲取，配置不同搜索引擎的信息，實(shí)現(xiàn)較為通用的搜索引擎查詢，并且不需要考慮過多的動態(tài)數(shù)據(jù)抓取；分詞主要使用jieba庫，完成對中文語句的分詞；使用余弦相似度完成文本相似度的對比并導(dǎo)出對比數(shù)據(jù)至Excel文章留作舉報(bào)信息。

微博情感分析基于sklearn，使用樸素貝葉斯完成對數(shù)據(jù)的情感分析；在數(shù)據(jù)抓取上，實(shí)現(xiàn)流程與文本查重的功能類似。

測試代碼獲取

CSDN codechina 代碼倉庫：https://codechina.csdn.net/A757291228/s-analysetooldemo

環(huán)境

作者的環(huán)境說明如下：

操作系統(tǒng)：Windows7 SP1 64
python 版本：3.7.7
瀏覽器：谷歌瀏覽器
瀏覽器版本： 80.0.3987 (64 位)

如有錯誤歡迎指出，歡迎留言交流。

一、實(shí)現(xiàn)文本查重

1.1 selenium安裝配置

由于使用的selenium，在使用前需要確保讀者是否已安裝selenium，使用pip命令，安裝如下：

pip install selenium

安裝完成 Selenium 還需要下載一個驅(qū)動。

谷歌瀏覽器驅(qū)動：驅(qū)動版本需要對應(yīng)瀏覽器版本，不同的瀏覽器使用對應(yīng)不同版本的驅(qū)動，點(diǎn)擊下載
如果是使用火狐瀏覽器，查看火狐瀏覽器版本，點(diǎn)擊

GitHub火狐驅(qū)動下載地址
下載（英文不好的同學(xué)右鍵一鍵翻譯即可，每個版本都有對應(yīng)瀏覽器版本的使用說明，看清楚下載即可）

安裝了selenium后新建一python文件名為selenium_search，先在代碼中引入

from selenium import webdriver

可能有些讀者沒有把驅(qū)動配置到環(huán)境中，接下來我們可以指定驅(qū)動的位置（博主已配置到環(huán)境中）：

driver = webdriver.Chrome(executable_path=r'F:\python\dr\chromedriver_win32\chromedriver.exe')

新建一個變量url賦值為百度首頁鏈接，使用get方法傳入url地址，嘗試打開百度首頁，完整代碼如下：

from selenium import webdriver

url='https://www.baidu.com'
driver=webdriver.Chrome()
driver.get(url)

在小黑框中使用命令行運(yùn)行python文件（windows下）：

運(yùn)行腳本后將會打開谷歌瀏覽器并跳轉(zhuǎn)至百度首頁：

這樣就成功使用selenium打開了指定網(wǎng)址，接下來將指定搜索關(guān)鍵詞查詢得到結(jié)果，再從結(jié)果中遍歷到相似數(shù)據(jù)。

1.2 selenium百度搜索引擎關(guān)鍵詞搜索

在自動操控瀏覽器進(jìn)行關(guān)鍵字鍵入到搜索框前，需要獲取搜索框元素對象。使用谷歌瀏覽器打開百度首頁，右鍵搜索框選擇查看，將會彈出網(wǎng)頁元素（代碼）查看視窗，找到搜索框元素（使用鼠標(biāo)在元素節(jié)點(diǎn)中移動，鼠標(biāo)當(dāng)前位置的元素節(jié)點(diǎn)將會對應(yīng)的在網(wǎng)頁中標(biāo)藍(lán)）：

在html代碼中，id的值大多數(shù)情況下唯一（除非是打錯了），在此選擇id作為獲取搜索框元素對象的標(biāo)記。selenium提供了find_element_by_id方法，可以通過傳入id獲取到網(wǎng)頁元素對象。

input=driver.find_element_by_id('kw')

獲取元素對象后，使用send_keys方法可傳入需要鍵入的值：

input.send_keys('php基礎(chǔ)教程 第十一步 面向?qū)ο?)

在此我傳入了 “php基礎(chǔ)教程第十一步面向?qū)ο?/strong>”作為關(guān)鍵字作為搜索。運(yùn)行腳本查看是否在搜索框中鍵入了關(guān)鍵字。代碼如下：

input.send_keys('php基礎(chǔ)教程第十一步面向?qū)ο?)

成功打開瀏覽器并鍵入了搜索關(guān)鍵字：

現(xiàn)在還差點(diǎn)擊“百度一下”按鈕完成最終的搜索。使用與查看搜索框相同的元素查看方法查找“百度一下”按鈕的id值：

使用find_element_by_id方法獲取到該元素對象，隨后使用click方法使該按鈕完成點(diǎn)擊操作：

search_btn=driver.find_element_by_id('su') search_btn.click()

完整代碼如下：

from selenium import webdriver url='https://www.baidu.com' driver=webdriver.Chrome() driver.get(url) input=driver.find_element_by_id('kw') input.send_keys('php基礎(chǔ)教程第十一步面向?qū)ο?) search_btn=driver.find_element_by_id('su') search_btn.click()

瀏覽器自動完成了鍵入搜索關(guān)鍵字及搜索功能：

1.3 搜索結(jié)果遍歷

當(dāng)前已在瀏覽器中得到了搜索結(jié)果，接下來需要獲取整個web頁面內(nèi)容，得到搜索結(jié)果。使用selenium并不能很方便的獲取到，在這里使用BeautifulSoup對整個web頁面進(jìn)行解析并獲取搜索結(jié)果。

BeautifulSoup是一個HTML/XML解析器，使用BeautifulSoup會極大的方便我們對整個html的信息獲取。
使用BeautifulSoup前需確保已安裝。安裝命令如下：

pip install BeautifulSoup

安裝后，在當(dāng)前python文件頭部引入：

from bs4 import BeautifulSoup

獲取html文本可以調(diào)用page_source即可：

html=driver.page_source

得到了html代碼后，新建BeautifulSoup對象，傳入html內(nèi)容并且指定解析器，這里指定使用 html.parser 解析器：

soup = BeautifulSoup(html, "html.parser")

接下來查看搜索內(nèi)容，發(fā)現(xiàn)所有的結(jié)果都由一個h標(biāo)簽包含，并且class為t：

BeautifulSoup提供了select方法對標(biāo)簽進(jìn)行獲取，支持通過類名、標(biāo)簽名、id、屬性、組合查找等。我們發(fā)現(xiàn)百度搜索結(jié)果中，結(jié)果皆有一個class =“t”，此時可以通過類名進(jìn)行遍歷獲取最為簡便：

search_res_list=soup.select('.t')

在select方法中傳入類名t，在類名前加上一個點(diǎn)（.）表示是通過類名獲取元素。
完成這一步后可以添加print嘗試打印出結(jié)果：

print(search_res_list)

一般情況下，可能輸出search_res_list為空列表，這是因?yàn)槲覀冊跒g覽器解析數(shù)據(jù)渲染到瀏覽器前已經(jīng)獲取了瀏覽器當(dāng)前頁的內(nèi)容，這時有一個簡單的方法可以解決這個問題，但是此方法效率卻不高，在此只是暫時使用，之后將會用其它效率高于此方法的代碼替換（使用time需要在頭部引入）：

time.sleep(2)

完整代碼如下：

from selenium import webdriver from bs4 import BeautifulSoup import time url='https://www.baidu.com' driver=webdriver.Chrome() driver.get(url) input=driver.find_element_by_id('kw') input.send_keys('php基礎(chǔ)教程第十一步面向?qū)ο?) search_btn=driver.find_element_by_id('su') search_btn.click() time.sleep(2)#在此等待使瀏覽器解析并渲染到瀏覽器 html=driver.page_source #獲取網(wǎng)頁內(nèi)容 soup = BeautifulSoup(html, "html.parser") search_res_list=soup.select('.t') print(search_res_list)

運(yùn)行程序?qū)敵鰞?nèi)容：

獲取到的結(jié)果為所有class為t的標(biāo)簽，包括該標(biāo)簽的子節(jié)點(diǎn)，并且使用點(diǎn)（.）運(yùn)算發(fā)可以獲取子節(jié)點(diǎn)元素。通過瀏覽器得到的搜索內(nèi)容皆為鏈接，點(diǎn)擊可跳轉(zhuǎn)，那么只需要獲取每一個元素下的a標(biāo)簽即可：

for el in search_res_list: print(el.a)

從結(jié)果中很明顯的看出搜索結(jié)果的a標(biāo)簽已經(jīng)獲取，那么接下來我們需要的是提取每個a標(biāo)簽內(nèi)的href超鏈接。獲取href超鏈接直接使用列表獲取元素的方式獲取即可：

for el in search_res_list: print(el.a['href'])

運(yùn)行腳本成功得到結(jié)果：

細(xì)心的讀者可能會發(fā)現(xiàn)，這些獲取到的結(jié)果中，都是baidu的網(wǎng)址。其實(shí)這些網(wǎng)址可以說是“索引”，通過這些索引再次跳轉(zhuǎn)到真實(shí)網(wǎng)址。由于這些“索引”不一定會變動，并不利于長期存儲，在此還是需要獲取到真實(shí)的鏈接。
我們調(diào)用js腳本對這些網(wǎng)址進(jìn)行訪問，這些網(wǎng)址將會跳轉(zhuǎn)到真實(shí)網(wǎng)址，跳轉(zhuǎn)后再獲取當(dāng)前的網(wǎng)址信息即可。調(diào)用execute_script方法可執(zhí)行js代碼，代碼如下：

for el in search_res_list: js = 'window.open("'+el.a['href']+'")' driver.execute_script(js)

打開新的網(wǎng)頁后，需要獲取新網(wǎng)頁的句柄，否則無法操控新網(wǎng)頁。獲取句柄的方法如下：

handle_this=driver.current_window_handle#獲取當(dāng)前句柄 handle_all=driver.window_handles#獲取所有句柄

獲取句柄后需要把當(dāng)前操作的對象切換成新的頁面。由于打開一個頁面后所有頁面只有2個，簡單的使用遍歷做一個替換：

handle_exchange=None#要切換的句柄 for handle in handle_all:#不匹配為新句柄 if handle != handle_this:#不等于當(dāng)前句柄就交換 handle_exchange = handle driver.switch_to.window(handle_exchange)#切換

切換后，操作對象為當(dāng)前剛打開的頁面。通過current_url屬性拿到新頁面的url：

real_url=driver.current_url print(real_url)

隨后關(guān)閉當(dāng)前頁面，把操作對象置為初始頁面：

driver.close() driver.switch_to.window(handle_this)#換回最初始界面

運(yùn)行腳本成功獲取到真實(shí)url：

最后在獲取到真實(shí)url后使用一個列表將結(jié)果存儲：

real_url_list.append(real_url)

這一部分完整代碼如下：

from selenium import webdriver from bs4 import BeautifulSoup import time url='https://www.baidu.com' driver=webdriver.Chrome() driver.get(url) input=driver.find_element_by_id('kw') input.send_keys('php基礎(chǔ)教程第十一步面向?qū)ο?) search_btn=driver.find_element_by_id('su') search_btn.click() time.sleep(2)#在此等待使瀏覽器解析并渲染到瀏覽器 html=driver.page_source soup = BeautifulSoup(html, "html.parser") search_res_list=soup.select('.t') real_url_list=[] # print(search_res_list) for el in search_res_list: js = 'window.open("'+el.a['href']+'")' driver.execute_script(js) handle_this=driver.current_window_handle#獲取當(dāng)前句柄 handle_all=driver.window_handles#獲取所有句柄 handle_exchange=None#要切換的句柄 for handle in handle_all:#不匹配為新句柄 if handle != handle_this:#不等于當(dāng)前句柄就交換 handle_exchange = handle driver.switch_to.window(handle_exchange)#切換 real_url=driver.current_url print(real_url) real_url_list.append(real_url)#存儲結(jié)果 driver.close() driver.switch_to.window(handle_this)

1.4 獲取源文本

在當(dāng)前文件的目錄下新建一個文件夾，命名為textsrc，在該目錄下創(chuàng)建一個txt文件，把需要對比的文本存放至該文本中。在此我存放的內(nèi)容為文章“php基礎(chǔ)教程第十一步面向?qū)ο?/strong>”的內(nèi)容。

在代碼中編寫一個函數(shù)為獲取文本內(nèi)容：

def read_txt(path=''): f = open(path,'r') return f.read() src=read_txt(r'F:\tool\textsrc\src.txt')

為了方便測試，這里使用是絕對路徑。
獲取到文本內(nèi)容后，編寫余弦相似度的對比方法。

1.5 余弦相似度

相似度計(jì)算參考文章《python實(shí)現(xiàn)余弦相似度文本比較》，本人修改一部分從而實(shí)現(xiàn)。

本文相似度對比使用余弦相似度算法，一般步驟分為分詞->向量計(jì)算->計(jì)算相似度。
新建一個python文件，名為Analyse。新建一個類名為Analyse，在類中添加分詞方法，并在頭部引入jieba分詞庫，以及collections統(tǒng)計(jì)次數(shù)：

from jieba import lcut import jieba.analyse import collections

Count方法：

#分詞 def Count(self,text): tag = jieba.analyse.textrank(text,topK=20) word_counts = collections.Counter(tag) #計(jì)數(shù)統(tǒng)計(jì) return word_counts

Count方法接收一個text變量，text變量為文本，使用textrank方法分詞并且使用Counter計(jì)數(shù)。
隨后添加MergeWord方法，使詞合并方便之后的向量計(jì)算：

#詞合并 def MergeWord(self,T1,T2): MergeWord = [] for i in T1: MergeWord.append(i) for i in T2: if i not in MergeWord: MergeWord.append(i) return MergeWord

合并方法很簡單不再做解釋。接下來添加向量計(jì)算方法：

# 得出文檔向量 def CalVector(self,T1,MergeWord): TF1 = [0] * len(MergeWord) for ch in T1: TermFrequence = T1[ch] word = ch if word in MergeWord: TF1[MergeWord.index(word)] = TermFrequence return TF1

最后添加相似度計(jì)算方法：

def cosine_similarity(self,vector1, vector2): dot_product = 0.0 normA = 0.0 normB = 0.0 for a, b in zip(vector1, vector2):#兩個向量組合成 [(1, 4), (2, 5), (3, 6)] 最短形式表現(xiàn) dot_product += a * b normA += a ** 2 normB += b ** 2 if normA == 0.0 or normB == 0.0: return 0 else: return round(dot_product / ((normA**0.5)*(normB**0.5))*100, 2)

相似度方法接收兩個向量，隨后計(jì)算相似度并返回。為了代碼冗余度少，在這里先簡單的添加一個方法，完成計(jì)算流程：

def get_Tfidf(self,text1,text2):#測試對比本地?cái)?shù)據(jù)對比搜索引擎方法 # self.correlate.word.set_this_url(url) T1 = self.Count(text1) T2 = self.Count(text2) mergeword = self.MergeWord(T1,T2) return self.cosine_similarity(self.CalVector(T1,mergeword),self.CalVector(T2,mergeword))

Analyse類的完整代碼如下：

from jieba import lcut import jieba.analyse import collections class Analyse: def get_Tfidf(self,text1,text2):#測試對比本地?cái)?shù)據(jù)對比搜索引擎方法 # self.correlate.word.set_this_url(url) T1 = self.Count(text1) T2 = self.Count(text2) mergeword = self.MergeWord(T1,T2) return self.cosine_similarity(self.CalVector(T1,mergeword),self.CalVector(T2,mergeword)) #分詞 def Count(self,text): tag = jieba.analyse.textrank(text,topK=20) word_counts = collections.Counter(tag) #計(jì)數(shù)統(tǒng)計(jì) return word_counts #詞合并 def MergeWord(self,T1,T2): MergeWord = [] for i in T1: MergeWord.append(i) for i in T2: if i not in MergeWord: MergeWord.append(i) return MergeWord # 得出文檔向量 def CalVector(self,T1,MergeWord): TF1 = [0] * len(MergeWord) for ch in T1: TermFrequence = T1[ch] word = ch if word in MergeWord: TF1[MergeWord.index(word)] = TermFrequence return TF1 #計(jì)算 TF-IDF def cosine_similarity(self,vector1, vector2): dot_product = 0.0 normA = 0.0 normB = 0.0 for a, b in zip(vector1, vector2):#兩個向量組合成 [(1, 4), (2, 5), (3, 6)] 最短形式表現(xiàn) dot_product += a * b normA += a ** 2 normB += b ** 2 if normA == 0.0 or normB == 0.0: return 0 else: return round(dot_product / ((normA**0.5)*(normB**0.5))*100, 2)

1.6 搜索結(jié)果內(nèi)容與文本做相似度對比

在selenium_search文件中引入Analyse，并且新建對象：

from Analyse import Analyse Analyse=Analyse()

在遍歷搜索結(jié)果中添加獲取新打開后的頁面的網(wǎng)頁內(nèi)容：

time.sleep(5) html_2=driver.page_source

使用 time.sleep(5)是為了等待瀏覽器能夠有時間渲染當(dāng)前web內(nèi)容。獲取到新打開的頁面內(nèi)容后，進(jìn)行相似度對比：

Analyse.get_Tfidf(src,html_2)

由于返回的是一個值，使用print輸出：

print('相似度：',Analyse.get_Tfidf(src,html_2))

完整代碼如下：

from selenium import webdriver from bs4 import BeautifulSoup import time from Analyse import Analyse def read_txt(path=''): f = open(path,'r') return f.read() #獲取對比文件 src=read_txt(r'F:\tool\textsrc\src.txt') Analyse=Analyse() url='https://www.baidu.com' driver=webdriver.Chrome() driver.get(url) input=driver.find_element_by_id('kw') input.send_keys('php基礎(chǔ)教程第十一步面向?qū)ο?) search_btn=driver.find_element_by_id('su') search_btn.click() time.sleep(2)#在此等待使瀏覽器解析并渲染到瀏覽器 html=driver.page_source soup = BeautifulSoup(html, "html.parser") search_res_list=soup.select('.t') real_url_list=[] # print(search_res_list) for el in search_res_list: js = 'window.open("'+el.a['href']+'")' driver.execute_script(js) handle_this=driver.current_window_handle#獲取當(dāng)前句柄 handle_all=driver.window_handles#獲取所有句柄 handle_exchange=None#要切換的句柄 for handle in handle_all:#不匹配為新句柄 if handle != handle_this:#不等于當(dāng)前句柄就交換 handle_exchange = handle driver.switch_to.window(handle_exchange)#切換 real_url=driver.current_url time.sleep(5) html_2=driver.page_source print('相似度：',Analyse.get_Tfidf(src,html_2)) print(real_url) real_url_list.append(real_url) driver.close() driver.switch_to.window(handle_this)

運(yùn)行腳本：

結(jié)果顯示有幾個高度相似的鏈接，那么這幾個就是疑似抄襲的文章了。
以上是完成基本查重的代碼，但是相對于說代碼比較冗余、雜亂，接下來我們優(yōu)化一下代碼。

二、代碼優(yōu)化

通過以上的程序編程，簡要步驟可以分為：獲取搜索內(nèi)容->獲取結(jié)果->計(jì)算相似度。我們可以新建三個類，分別為：Browser、Analyse（已新建）、SearchEngine。
Browser用于搜索、數(shù)據(jù)獲取等；Analyse用于相似度分析、向量計(jì)算等；SearchEngine用于不同搜索引擎的基本配置，因?yàn)榇蟛糠炙讯嘁娴乃阉鞣绞捷^為一致。

2.1Browser 類

初始化
新建一個python文件，名為Browser，添加初始化方法：

def __init__(self,conf): self.browser=webdriver.Chrome() self.conf=conf self.engine_conf=EngineConfManage().get_Engine_conf(conf['engine']).get_conf()

self.browser=webdriver.Chrome()為新建一個瀏覽器對象；conf為傳入的搜索配置，之后進(jìn)行搜索內(nèi)容由編寫配置字典實(shí)現(xiàn)；self.engine_conf=EngineConfManage().get_Engine_conf(conf['engine']).get_conf()為獲取搜索引擎的配置，不同搜索引擎的輸入框、搜索按鍵不一致，通過不同的配置信息實(shí)現(xiàn)多搜索引擎搜索。

添加搜索方法

#搜索內(nèi)容寫入到搜素引擎中 def send_keyword(self): input = self.browser.find_element_by_id(self.engine_conf['searchTextID']) input.send_keys(self.conf['kw'])

以上方法中self.engine_conf['searchTextID']與self.conf['kw']通過初始化方法得到對應(yīng)的搜索引擎配置信息，直接獲取信息得到元素。

點(diǎn)擊搜索

#搜索框點(diǎn)擊 def click_search_btn(self): search_btn = self.browser.find_element_by_id(self.engine_conf['searchBtnID']) search_btn.click()

通過使用self.engine_conf['searchBtnID']獲取搜索按鈕的id。

獲取搜索結(jié)果與文本

#獲取搜索結(jié)果與文本 def get_search_res_url(self): res_link={} WebDriverWait(self.browser,timeout=30,poll_frequency=1).until(EC.presence_of_element_located((By.ID, "page"))) #內(nèi)容通過 BeautifulSoup 解析 content=self.browser.page_source soup = BeautifulSoup(content, "html.parser") search_res_list=soup.select('.'+self.engine_conf['searchContentHref_class']) for el in search_res_list: js = 'window.open("'+el.a['href']+'")' self.browser.execute_script(js) handle_this=self.browser.current_window_handle #獲取當(dāng)前句柄 handle_all=self.browser.window_handles #獲取所有句柄 handle_exchange=None #要切換的句柄 for handle in handle_all: #不匹配為新句柄 if handle != handle_this: #不等于當(dāng)前句柄就交換 handle_exchange = handle self.browser.switch_to.window(handle_exchange) #切換 real_url=self.browser.current_url time.sleep(1) res_link[real_url]=self.browser.page_source #結(jié)果獲取 self.browser.close() self.browser.switch_to.window(handle_this) return res_link

以上方法跟之前編寫的遍歷搜索結(jié)果內(nèi)容相似，從中添加了WebDriverWait(self.browser,timeout=30,poll_frequency=1).until(EC.presence_of_element_located((By.ID, "page")))替代了sleep，用于判斷EC.presence_of_element_located((By.ID, "page"))是否找到id值為page的網(wǎng)頁元素，id為page的網(wǎng)頁元素為分頁按鈕的標(biāo)簽id，如果未獲取表示當(dāng)前web頁并未加載完全，等待時間為timeout=3030秒，如果已過去則跳過等待。
以上代碼中并不做相似度對比，而是通過 res_link[real_url]=self.browser.page_source 將內(nèi)容與url存入字典，隨后返回，之后再做相似度對比，這樣編寫利于之后的功能擴(kuò)展。

打開目標(biāo)搜索引擎進(jìn)行搜索

#打開目標(biāo)搜索引擎進(jìn)行搜索 def search(self): self.browser.get(self.engine_conf['website']) #打開搜索引擎站點(diǎn) self.send_keyword() #輸入搜索kw self.click_search_btn() #點(diǎn)擊搜索 return self.get_search_res_url() #獲取web頁搜索數(shù)據(jù)

最后添加一個search方法，直接調(diào)用search方法即可實(shí)現(xiàn)之前的所有操作，不用暴露過多簡化使用。
完整代碼如下：

from selenium import webdriver from bs4 import BeautifulSoup from SearchEngine import EngineConfManage from selenium.webdriver.support.wait import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.common.by import By import time class Browser: def __init__(self,conf): self.browser=webdriver.Chrome() self.conf=conf self.engine_conf=EngineConfManage().get_Engine_conf(conf['engine']).get_conf() #搜索內(nèi)容寫入到搜素引擎中 def send_keyword(self): input = self.browser.find_element_by_id(self.engine_conf['searchTextID']) input.send_keys(self.conf['kw']) #搜索框點(diǎn)擊 def click_search_btn(self): search_btn = self.browser.find_element_by_id(self.engine_conf['searchBtnID']) search_btn.click() #獲取搜索結(jié)果與文本 def get_search_res_url(self): res_link={} WebDriverWait(self.browser,timeout=30,poll_frequency=1).until(EC.presence_of_element_located((By.ID, "page"))) #內(nèi)容通過 BeautifulSoup 解析 content=self.browser.page_source soup = BeautifulSoup(content, "html.parser") search_res_list=soup.select('.'+self.engine_conf['searchContentHref_class']) for el in search_res_list: js = 'window.open("'+el.a['href']+'")' self.browser.execute_script(js) handle_this=self.browser.current_window_handle #獲取當(dāng)前句柄 handle_all=self.browser.window_handles #獲取所有句柄 handle_exchange=None #要切換的句柄 for handle in handle_all: #不匹配為新句柄 if handle != handle_this: #不等于當(dāng)前句柄就交換 handle_exchange = handle self.browser.switch_to.window(handle_exchange) #切換 real_url=self.browser.current_url time.sleep(1) res_link[real_url]=self.browser.page_source #結(jié)果獲取 self.browser.close() self.browser.switch_to.window(handle_this) return res_link #打開目標(biāo)搜索引擎進(jìn)行搜索 def search(self): self.browser.get(self.engine_conf['website']) #打開搜索引擎站點(diǎn) self.send_keyword() #輸入搜索kw self.click_search_btn() #點(diǎn)擊搜索 return self.get_search_res_url() #獲取web頁搜索數(shù)據(jù)

2.2SearchEngine 類

SearchEngine類主要用于不同搜索引擎的配置編寫。更加簡便的實(shí)現(xiàn)搜索引擎或相似業(yè)務(wù)的擴(kuò)展。

#搜索引擎配置 class EngineConfManage: def get_Engine_conf(self,engine_name): if engine_name=='baidu': return BaiduEngineConf() elif engine_name=='qihu360': return Qihu360EngineConf() elif engine_name=='sougou': return SougouEngineConf() class EngineConf: def __init__(self): self.engineConf={} def get_conf(self): return self.engineConf class BaiduEngineConf(EngineConf): engineConf={} def __init__(self): self.engineConf['searchTextID']='kw' self.engineConf['searchBtnID']='su' self.engineConf['nextPageBtnID_xpath_f']='//*[@id="page"]/div/a[10]' self.engineConf['nextPageBtnID_xpath_s']='//*[@id="page"]/div/a[11]' self.engineConf['searchContentHref_class']='t' self.engineConf['website']='http://www.baidu.com' class Qihu360EngineConf(EngineConf): def __init__(self): pass class SougouEngineConf(EngineConf): def __init__(self): pass

在此只實(shí)現(xiàn)了百度搜索引擎的配置編寫。所有不同種類的搜索引擎繼承EngineConf基類，使子類都有了get_conf方法。EngineConfManage類用于不同搜索引擎的調(diào)用，傳入引擎名即可。

2.3如何使用

首先引入兩個類：

from Browser import Browser from Analyse import Analyse

新建一個方法讀取本地文件：

def read_txt(path=''): f = open(path,'r') return f.read()

獲取文件并新建數(shù)據(jù)分析類：

src=read_txt(r'F:\tool\textsrc\src.txt')#獲取本地文本 Analyse=Analyse()

配置信息字典編寫：

#配置信息 conf={ 'kw':'php基礎(chǔ)教程第十一步面向?qū)ο?, 'engine':'baidu', }

新建Browser類，并傳入配置信息：

drvier=Browser(conf)

獲取搜索結(jié)果及內(nèi)容

url_content=drvier.search()#獲取搜索結(jié)果及內(nèi)容

遍歷結(jié)果及計(jì)算相似度：

for k in url_content: print(k,'相似度：',Analyse.get_Tfidf(src,url_content[k]))

完整代碼如下：

from Browser import Browser from Analyse import Analyse def read_txt(path=''): f = open(path,'r') return f.read() src=read_txt(r'F:\tool\textsrc\src.txt')#獲取本地文本 Analyse=Analyse() #配置信息 conf={ 'kw':'php基礎(chǔ)教程第十一步面向?qū)ο?, 'engine':'baidu', } drvier=Browser(conf) url_content=drvier.search()#獲取搜索結(jié)果及內(nèi)容 for k in url_content: print(k,'相似度：',Analyse.get_Tfidf(src,url_content[k]))

是不是感覺舒服多了？簡直不要太清爽。你以為這就完了嗎？還沒完，接下來擴(kuò)展一下功能。

三、功能擴(kuò)展

暫時這個小工具的功能只有查重這個基礎(chǔ)功能，并且這個存在很多問題。如沒有白名單過濾、只能查一篇文章的相似度、如果比較懶也沒有直接獲取文章列表自動查重的功能以及結(jié)果導(dǎo)出等。接下來慢慢完善部分功能，由于篇幅關(guān)系并不完全把的功能實(shí)現(xiàn)在此列出，之后將會持續(xù)更新。

3.1自動獲取文本

新建一個python文件，名為FileHandle。該類用于自動獲取指定目錄下txt文件，txt文件文件名為關(guān)鍵字，內(nèi)容為該名稱的文章內(nèi)容。類代碼如下：

import os class FileHandle: #獲取文件內(nèi)容 def get_content(self,path): f = open(path,"r") #設(shè)置文件對象 content = f.read() #將txt文件的所有內(nèi)容讀入到字符串str中 f.close() #將文件關(guān)閉 return content #獲取文件內(nèi)容 def get_text(self): file_path=os.path.dirname(__file__) #當(dāng)前文件所在目錄 txt_path=file_path+r'\textsrc' #txt目錄 rootdir=os.path.join(txt_path) #目標(biāo)目錄內(nèi)容 local_text={} # 讀txt 文件 for (dirpath,dirnames,filenames) in os.walk(rootdir): for filename in filenames: if os.path.splitext(filename)[1]=='.txt': flag_file_path=dirpath+'\\'+filename #文件路徑 flag_file_content=self.get_content(flag_file_path) #讀文件路徑 if flag_file_content!='': local_text[filename.replace('.txt', '')]=flag_file_content #鍵值對內(nèi)容 return local_text

其中有兩個方法get_content與get_text。get_text為獲取目錄下所有txt文件路徑，通過get_content獲取到詳細(xì)文本內(nèi)容，返回local_text；local_text鍵為文件名，值為文本內(nèi)容。

3.2BrowserManage類

在Browser類文件中添加一個BrowserManage類繼承于Browser，添加方法：

#打開目標(biāo)搜索引擎進(jìn)行搜索 def search(self): self.browser.get(self.engine_conf['website']) #打開搜索引擎站點(diǎn) self.send_keyword() #輸入搜索kw self.click_search_btn() #點(diǎn)擊搜索 return self.get_search_res_url() #獲取web頁搜索數(shù)據(jù)

添加該類使Browser類的邏輯與其它方法分開，便于擴(kuò)展。

3.3Browser類的擴(kuò)展

在Browser類中添加下一頁方法，使搜索內(nèi)容時能夠獲取更多內(nèi)容，并且可指定獲取結(jié)果條數(shù)：

#下一頁 def click_next_page(self,md5): WebDriverWait(self.browser,timeout=30,poll_frequency=1).until(EC.presence_of_element_located((By.ID, "page"))) #百度搜索引擎翻頁后下一頁按鈕 xpath 不一致默認(rèn)非第一頁xpath try: next_page_btn = self.browser.find_element_by_xpath(self.engine_conf['nextPageBtnID_xpath_s']) except: next_page_btn = self.browser.find_element_by_xpath(self.engine_conf['nextPageBtnID_xpath_f']) next_page_btn.click() #md5 進(jìn)行 webpag text 對比，判斷是否已翻頁（暫時使用，存在bug） i=0 while md5==hashlib.md5(self.browser.page_source.encode(encoding='UTF-8')).hexdigest():#md5 對比 time.sleep(0.3)#防止一些錯誤，暫時使用強(qiáng)制停止保持一些穩(wěn)定 i+=1 if i>100: return False return True

百度搜索引擎翻頁后下一頁按鈕 xpath 不一致默認(rèn)非第一頁xpath，出現(xiàn)異常使用另外一個xpath。隨后對頁面進(jìn)行md5，對比md5值，如果當(dāng)前頁面沒有刷新，md5值將不會改變，等待小短時間之后點(diǎn)擊下一頁。

3.4get_search_res_url方法的修改

get_search_res_url方法的修改了部分內(nèi)容，添加了增加結(jié)果條數(shù)指定、下一頁內(nèi)容獲取以及白名單設(shè)置更改過后的代碼如下：

#獲取搜索結(jié)果與文本 def get_search_res_url(self): res_link={} WebDriverWait(self.browser,timeout=30,poll_frequency=1).until(EC.presence_of_element_located((By.ID, "page"))) #內(nèi)容通過 BeautifulSoup 解析 content=self.browser.page_source soup = BeautifulSoup(content, "html.parser") search_res_list=soup.select('.'+self.engine_conf['searchContentHref_class']) while len(res_link)self.conf['target_page']: for el in search_res_list: js = 'window.open("'+el.a['href']+'")' self.browser.execute_script(js) handle_this=self.browser.current_window_handle #獲取當(dāng)前句柄 handle_all=self.browser.window_handles #獲取所有句柄 handle_exchange=None #要切換的句柄 for handle in handle_all: #不匹配為新句柄 if handle != handle_this: #不等于當(dāng)前句柄就交換 handle_exchange = handle self.browser.switch_to.window(handle_exchange) #切換 real_url=self.browser.current_url if real_url in self.conf['white_list']: #白名單 continue time.sleep(1) res_link[real_url]=self.browser.page_source #結(jié)果獲取 self.browser.close() self.browser.switch_to.window(handle_this) content_md5=hashlib.md5(self.browser.page_source.encode(encoding='UTF-8')).hexdigest() #md5對比 self.click_next_page(content_md5) return res_link

while len(res_link)self.conf['target_page']:為增加了對結(jié)果條數(shù)的判斷。

content_md5=hashlib.md5(self.browser.page_source.encode(encoding='UTF-8')).hexdigest() #md5對比 self.click_next_page(content_md5)

以上代碼增加了當(dāng)前頁面刷新后的md5值判斷，不一致則進(jìn)行跳轉(zhuǎn)。

if real_url in self.conf['white_list']: #白名單 continue

以上代碼對白名單進(jìn)行了判斷，自己設(shè)置的白名單不加入到條數(shù)。

3.5新建Manage類

新建一python文件名為Manage，再次封裝。代碼如下：

from Browser import BrowserManage from Analyse import Analyse from FileHandle import FileHandle class Manage: def __init__(self,conf): self.drvier=BrowserManage(conf) self.textdic=FileHandle().get_text() self.analyse=Analyse() def get_local_analyse(self): resdic={} for k in self.textdic: res={} self.drvier.set_kw(k) url_content=self.drvier.search()#獲取搜索結(jié)果及內(nèi)容 for k1 in url_content: res[k1]=self.analyse.get_Tfidf(self.textdic[k],url_content[k1]) resdic[k]=res return resdic

以上代碼初始化方法接收一個參數(shù)，且初始化方法中新建了BrowserManage對象、Analyse對象以及獲取了文本內(nèi)容。
get_local_analyse方法遍歷文本，使用文件名當(dāng)作關(guān)鍵字進(jìn)行搜索，并且將搜索內(nèi)容與當(dāng)前文本做相似度對比，最后返回結(jié)果。
結(jié)果如下：

博主目錄下文件如下：

相似度分析部分以上為主要內(nèi)容，工具之后將會丟GitHub及csdn的代碼倉庫中，使用的無頭模式，本篇所講的內(nèi)容為一般實(shí)現(xiàn)。

所有完整的代碼如下

Analyse類：

from jieba import lcut import jieba.analyse import collections from FileHandle import FileHandle class Analyse: def get_Tfidf(self,text1,text2):#測試對比本地?cái)?shù)據(jù)對比搜索引擎方法 # self.correlate.word.set_this_url(url) T1 = self.Count(text1) T2 = self.Count(text2) mergeword = self.MergeWord(T1,T2) return self.cosine_similarity(self.CalVector(T1,mergeword),self.CalVector(T2,mergeword)) #分詞 def Count(self,text): tag = jieba.analyse.textrank(text,topK=20) word_counts = collections.Counter(tag) #計(jì)數(shù)統(tǒng)計(jì) return word_counts #詞合并 def MergeWord(self,T1,T2): MergeWord = [] for i in T1: MergeWord.append(i) for i in T2: if i not in MergeWord: MergeWord.append(i) return MergeWord # 得出文檔向量 def CalVector(self,T1,MergeWord): TF1 = [0] * len(MergeWord) for ch in T1: TermFrequence = T1[ch] word = ch if word in MergeWord: TF1[MergeWord.index(word)] = TermFrequence return TF1 #計(jì)算 TF-IDF def cosine_similarity(self,vector1, vector2): dot_product = 0.0 normA = 0.0 normB = 0.0 for a, b in zip(vector1, vector2):#兩個向量組合成 [(1, 4), (2, 5), (3, 6)] 最短形式表現(xiàn) dot_product += a * b normA += a ** 2 normB += b ** 2 if normA == 0.0 or normB == 0.0: return 0 else: return round(dot_product / ((normA**0.5)*(normB**0.5))*100, 2)

Browser類：

from selenium import webdriver from bs4 import BeautifulSoup from SearchEngine import EngineConfManage from selenium.webdriver.support.wait import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.common.by import By import hashlib import time import xlwt class Browser: def __init__(self,conf): self.browser=webdriver.Chrome() self.conf=conf self.conf['kw']='' self.engine_conf=EngineConfManage().get_Engine_conf(conf['engine']).get_conf() #搜索內(nèi)容設(shè)置 def set_kw(self,kw): self.conf['kw']=kw #搜索內(nèi)容寫入到搜素引擎中 def send_keyword(self): input = self.browser.find_element_by_id(self.engine_conf['searchTextID']) input.send_keys(self.conf['kw']) #搜索框點(diǎn)擊 def click_search_btn(self): search_btn = self.browser.find_element_by_id(self.engine_conf['searchBtnID']) search_btn.click() #獲取搜索結(jié)果與文本 def get_search_res_url(self): res_link={} WebDriverWait(self.browser,timeout=30,poll_frequency=1).until(EC.presence_of_element_located((By.ID, "page"))) #內(nèi)容通過 BeautifulSoup 解析 content=self.browser.page_source soup = BeautifulSoup(content, "html.parser") search_res_list=soup.select('.'+self.engine_conf['searchContentHref_class']) while len(res_link)self.conf['target_page']: for el in search_res_list: js = 'window.open("'+el.a['href']+'")' self.browser.execute_script(js) handle_this=self.browser.current_window_handle #獲取當(dāng)前句柄 handle_all=self.browser.window_handles #獲取所有句柄 handle_exchange=None #要切換的句柄 for handle in handle_all: #不匹配為新句柄 if handle != handle_this: #不等于當(dāng)前句柄就交換 handle_exchange = handle self.browser.switch_to.window(handle_exchange) #切換 real_url=self.browser.current_url if real_url in self.conf['white_list']: #白名單 continue time.sleep(1) res_link[real_url]=self.browser.page_source #結(jié)果獲取 self.browser.close() self.browser.switch_to.window(handle_this) content_md5=hashlib.md5(self.browser.page_source.encode(encoding='UTF-8')).hexdigest() #md5對比 self.click_next_page(content_md5) return res_link #下一頁 def click_next_page(self,md5): WebDriverWait(self.browser,timeout=30,poll_frequency=1).until(EC.presence_of_element_located((By.ID, "page"))) #百度搜索引擎翻頁后下一頁按鈕 xpath 不一致默認(rèn)非第一頁xpath try: next_page_btn = self.browser.find_element_by_xpath(self.engine_conf['nextPageBtnID_xpath_s']) except: next_page_btn = self.browser.find_element_by_xpath(self.engine_conf['nextPageBtnID_xpath_f']) next_page_btn.click() #md5 進(jìn)行 webpag text 對比，判斷是否已翻頁（暫時使用，存在bug） i=0 while md5==hashlib.md5(self.browser.page_source.encode(encoding='UTF-8')).hexdigest():#md5 對比 time.sleep(0.3)#防止一些錯誤，暫時使用強(qiáng)制停止保持一些穩(wěn)定 i+=1 if i>100: return False return True class BrowserManage(Browser): #打開目標(biāo)搜索引擎進(jìn)行搜索 def search(self): self.browser.get(self.engine_conf['website']) #打開搜索引擎站點(diǎn) self.send_keyword() #輸入搜索kw self.click_search_btn() #點(diǎn)擊搜索 return self.get_search_res_url() #獲取web頁搜索數(shù)據(jù)

Manage類：

from Browser import BrowserManage from Analyse import Analyse from FileHandle import FileHandle class Manage: def __init__(self,conf): self.drvier=BrowserManage(conf) self.textdic=FileHandle().get_text() self.analyse=Analyse() def get_local_analyse(self): resdic={} for k in self.textdic: res={} self.drvier.set_kw(k) url_content=self.drvier.search()#獲取搜索結(jié)果及內(nèi)容 for k1 in url_content: res[k1]=self.analyse.get_Tfidf(self.textdic[k],url_content[k1]) resdic[k]=res return resdic

FileHandle類：

import os class FileHandle: #獲取文件內(nèi)容 def get_content(self,path): f = open(path,"r") #設(shè)置文件對象 content = f.read() #將txt文件的所有內(nèi)容讀入到字符串str中 f.close() #將文件關(guān)閉 return content #獲取文件內(nèi)容 def get_text(self): file_path=os.path.dirname(__file__) #當(dāng)前文件所在目錄 txt_path=file_path+r'\textsrc' #txt目錄 rootdir=os.path.join(txt_path) #目標(biāo)目錄內(nèi)容 local_text={} # 讀txt 文件 for (dirpath,dirnames,filenames) in os.walk(rootdir): for filename in filenames: if os.path.splitext(filename)[1]=='.txt': flag_file_path=dirpath+'\\'+filename #文件路徑 flag_file_content=self.get_content(flag_file_path) #讀文件路徑 if flag_file_content!='': local_text[filename.replace('.txt', '')]=flag_file_content #鍵值對內(nèi)容 return local_text

本文最終使用方法如下：

from Manage import Manage white_list=['blog.csdn.net/A757291228','www.cnblogs.com/1-bit','blog.csdn.net/csdnnews']#白名單 #配置信息 conf={ 'engine':'baidu', 'target_page':5 'white_list':white_list, } print(Manage(conf).get_local_analyse())

到此這篇關(guān)于python基于搜索引擎實(shí)現(xiàn)文章查重功能的文章就介紹到這了,更多相關(guān)python文章查重內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:
Mysql實(shí)現(xiàn)簡易版搜索引擎的示例代碼
MySQL全文索引實(shí)現(xiàn)簡單版搜索引擎實(shí)例代碼
詳細(xì)介紹基于MySQL的搜索引擎MySQL-Fullltext
scrapy+flask+html打造搜索引擎的示例代碼
Python實(shí)戰(zhàn)之手寫一個搜索引擎
Python大批量搜索引擎圖像爬蟲工具詳解
360搜索引擎自動收錄php改寫方案
php記錄搜索引擎爬行記錄的實(shí)現(xiàn)代碼
Python無損音樂搜索引擎實(shí)現(xiàn)代碼
基于 Mysql 實(shí)現(xiàn)一個簡易版搜索引擎

標(biāo)簽：欽州臺灣景德鎮(zhèn) 喀什三沙黃山濟(jì)南宿遷
巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《python基于搜索引擎實(shí)現(xiàn)文章查重功能》，本文關(guān)鍵詞 python,基于,搜索引擎,實(shí)現(xiàn),；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請?zhí)峁┫嚓P(guān)信息告之我們，我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。

相關(guān)文章
下面列出與本文章《python基于搜索引擎實(shí)現(xiàn)文章查重功能》相關(guān)的同類信息！

python基于搜索引擎實(shí)現(xiàn)文章查重功能
前言文章抄襲在互聯(lián)網(wǎng)中普遍存在，很多博主都收受其煩。近幾年隨著互聯(lián)網(wǎng)的發(fā)展，抄襲等不道德行為在互聯(lián)網(wǎng)上愈演愈烈，甚至復(fù)制、黏貼后發(fā)布標(biāo)原創(chuàng)屢見不鮮，部分抄襲后的文...
10-18

濟(jì)南聯(lián)通防封號特價(jià)-[優(yōu)秀]
濟(jì)南聯(lián)通防封號特價(jià)節(jié)省人工撥號等待的時間，并能夠通過該功能自動識別出通話狀態(tài)，將有效的電話號碼轉(zhuǎn)接給合適的坐席...
01-15

上海完成全國首例知識產(chǎn)權(quán)糾紛行政調(diào)解協(xié)議司法確認(rèn)
來源：中國知識產(chǎn)權(quán)報(bào)/中國知識產(chǎn)權(quán)資訊網(wǎng) 近日，由上海市知識產(chǎn)權(quán)局主持調(diào)解的知識產(chǎn)權(quán)糾紛行政調(diào)解協(xié)議經(jīng)上海知識產(chǎn)...
10-23

邯鄲營銷外呼系統(tǒng)軟件（電話外呼營銷系統(tǒng)）
今日給各位共享邯鄲營銷外呼體系軟件的常識，其間也會對電話外呼營銷體系進(jìn)行解說，假如能可巧處理你現(xiàn)在面對的問題，...
11-07

4008105222 電話會議需要付費(fèi)嗎400電話怎么收費(fèi)，有什么標(biāo)準(zhǔn)
400電話會議是巨人科技的獨(dú)家功能。收費(fèi)標(biāo)準(zhǔn)取決于不同的套餐。目前最實(shí)惠的400電話會議收費(fèi)標(biāo)準(zhǔn)如下：不同的渠道導(dǎo)致...
01-13

煙臺市好用高頻電話卡辦理
7月23日下午消息，在今天舉辦的“2020年互聯(lián)網(wǎng)大會”上，工程院院士、互聯(lián)網(wǎng)協(xié)會咨詢會主任鄔賀銓發(fā)表了“疫后互聯(lián)網(wǎng)，...
02-10

廣州聯(lián)通群呼軟件特價(jià)-服務(wù)詳解
廣州聯(lián)通群呼軟件特價(jià)可能會出現(xiàn)漏記客戶的信息的現(xiàn)象。電話機(jī)器人撥通的每個電話都可以全程錄音，隨后可通過智能云端...
01-15

最有效升高商家服務(wù)技術(shù)的工具—400電話申請
現(xiàn)在市場的競爭已經(jīng)從單純的產(chǎn)品的競爭、價(jià)格的競爭發(fā)展到了服務(wù)的競爭，服務(wù)是商家的重點(diǎn)發(fā)展非昂想，企業(yè)擁有了好的...
12-23

欽州穩(wěn)定外呼系統(tǒng)報(bào)價(jià)的簡單介紹
本文目錄一覽： 1、外呼系統(tǒng)什么價(jià)格？ 2、外呼系統(tǒng)安裝需要哪些費(fèi)用？ 3、智能外呼系統(tǒng)多少錢？ 4、外呼系統(tǒng)多少錢一個...
11-25

蕪湖市好用白名單手機(jī)卡靠譜
7月23日下午消息，在今天舉辦的“2020年互聯(lián)網(wǎng)大會”上，工程院院士、互聯(lián)網(wǎng)協(xié)會咨詢會主任鄔賀銓發(fā)表了“疫后互聯(lián)網(wǎng)，...
03-30

查詢流量卡訂單，網(wǎng)上申請的流量卡怎么查詢訂單
很多朋友都喜歡在網(wǎng)上申請辦理流量卡，但是申請之后又不知道該如何查詢訂單，今天，小編就給大家介紹一下。以物聯(lián)卡...
10-13

電話機(jī)器人那種好用（電話機(jī)器人效果怎么樣?）
本文目次一覽： 1、哪家的ai智能德律風(fēng)發(fā)售呆板人對照好？ 2、遴選智能德律風(fēng)呆板人的話，哪家的對照好？ 3、ai智能德律...
11-26

win10系統(tǒng)開機(jī)藍(lán)屏顯示bootsafe64_ev.sys錯誤怎么辦
當(dāng)電腦遇到藍(lán)屏故障的時候，原因有多種多樣，不同原因有不同的解決方法，比如近日有win10系統(tǒng)用戶反映說開機(jī)出現(xiàn)藍(lán)屏，...
10-19

5G已經(jīng)近在眼前新的網(wǎng)絡(luò)能否影響物聯(lián)網(wǎng)安全
即將推出的第五代無線移動通信5G能否幫助提升物聯(lián)網(wǎng)的安全性？物聯(lián)網(wǎng)生態(tài)系統(tǒng)作為DDoS等攻擊的目標(biāo)尤其具有吸引力，部分...
10-13

怎樣搭建呼叫中心平臺-呼叫中心貴不貴
很多客戶在選擇和一個公司時，除了考察公司本身的實(shí)力，還會考察公司的服務(wù)。尤其是對于那些服務(wù)性質(zhì)大的公司來說，更...
07-13

貴港銷售電銷機(jī)器人系統(tǒng)（貴港銷售電銷機(jī)器人系統(tǒng)招標(biāo)）
今日給各位共享貴港出售電銷機(jī)器人體系的常識，其間也會對貴港出售電銷機(jī)器人體系投標(biāo)進(jìn)行解說，假如能可巧處理你現(xiàn)在...
05-18

純CSS實(shí)現(xiàn)酷炫的霓虹燈效果(附demo)
最近關(guān)注了油管上的 CSS Animation Effects Tutorial 系列，里面介紹了非常多有意思的 CSS 動效。其中第一個就是很酷炫的霓虹燈效...
10-16

win7系統(tǒng)怎么修改最高管理員權(quán)限方便設(shè)置
有很多設(shè)置需要用到win7的超級管理員賬戶，所以，如果你是一個狂熱的diy玩家，可以把你的系統(tǒng)修改為超級管理員賬戶。第...
10-20

工信部：144家企業(yè)跨地區(qū)增值電信業(yè)務(wù)經(jīng)營許可證注銷
工業(yè)和信息化部關(guān)于注銷144家企業(yè)跨地區(qū)增值電信業(yè)務(wù)經(jīng)營許可證的通告近期，深圳和彩科技有限公司等17家企業(yè)向我部提交...
10-13

陜西電商專用電銷專用機(jī)器人哪家好-哪家強(qiáng)?
陜西電商專用電銷專用機(jī)器人哪家好操作簡單，容易上手，可度掌握客戶的情況，企業(yè)在使用電銷系統(tǒng)后，透明績效考核員工...
05-18

濟(jì)南穩(wěn)定電話呼叫軟件辦理價(jià)格,外呼系統(tǒng)辦理多少錢-有效！
濟(jì)南穩(wěn)定電話呼叫軟件辦理價(jià)格,外呼系統(tǒng)辦理多少錢吹自擂，結(jié)果只能培養(yǎng)出一兩名***的電話營銷經(jīng)理，更多的是普通人。...
12-16

海口市工商系統(tǒng)12315服務(wù)熱線外包服務(wù)采購
海南省海口市工商行政管理局工商系統(tǒng)12315服務(wù)熱線外包服務(wù)采購項(xiàng)目公告海南省政府采購中心（以下簡稱采購中心)受海南...
10-19

河北省服務(wù)外包示范園區(qū)增至8家
本報(bào)訊（記者吳新光）近日，省商務(wù)廳會同省工信廳等部門組織專家組評審，全省共認(rèn)定服務(wù)外包企業(yè)519家、服務(wù)外包培訓(xùn)機(jī)...
10-22

江西外呼系統(tǒng)專賣（外呼系統(tǒng)功能介紹）
本篇文章給大家談?wù)劷魍夂粝到y(tǒng)專賣，以及外呼系統(tǒng)功能介紹對應(yīng)的知識點(diǎn)，希望對各位有所幫助，不要忘了收藏本站喔。...
05-17

哈爾濱電銷團(tuán)隊(duì)服務(wù)（哈爾濱電銷公司）
今天給各位分享哈爾濱電銷團(tuán)隊(duì)服務(wù)的知識，其中也會對哈爾濱電銷公司進(jìn)行解釋，如果能碰巧解決你現(xiàn)在面臨的問題，別忘...
08-28

物聯(lián)網(wǎng)卡實(shí)名制誰交錢
物聯(lián)網(wǎng)卡實(shí)名制誰交錢物聯(lián)卡能單獨(dú)使用嗎？今后如何充值和補(bǔ)卡誰收費(fèi)。這款本人曾經(jīng)用過，理論上只能用于物聯(lián)，但目...
11-27

電銷卡判斷騷擾電話的標(biāo)準(zhǔn)
電銷卡有兩種,一種是營業(yè)廳號段白名單卡,這種獲取渠道有些困難,需要一定的關(guān)系.另一種則是虛商卡,也就是虛擬運(yùn)營商卡...
12-04

太原防封電銷卡官網(wǎng)（太原防詐騙電話）
今日給各位共享太原防封電銷卡官網(wǎng)的常識，其間也會對太原防欺詐電話進(jìn)行解說，假如能可巧處理你現(xiàn)在面對的問題，別忘...
05-18

鄭州不標(biāo)記電話外呼系統(tǒng)特價(jià)-進(jìn)來看看
鄭州不標(biāo)記電話外呼系統(tǒng)特價(jià)二次溝通的時候信息展現(xiàn)也很方便。接待：電銷機(jī)器人可以在人工客服接待過程中，根據(jù)客戶問...
01-15

耐克將在Instagram賣鞋分析師預(yù)計(jì)股價(jià)將漲20％以上
【TechWeb報(bào)道】7月7日，國外媒體報(bào)道，耐克的股價(jià)本年上漲了13％，，一部分原因在于，耐克對社交媒體和電子商務(wù)平臺的態(tài)...
10-16

外呼系統(tǒng)哪個牌子好用（好用的外呼系統(tǒng)）
本篇文章給大家談?wù)勍夂粝到y(tǒng)哪個牌子好用，以及好用的外呼系統(tǒng)對應(yīng)的知識點(diǎn)，希望對各位有所幫助，不要忘了收藏本站喔...
05-16

北京400電話怎么申請開通廣東惠州400電話申請流程
400電話業(yè)務(wù)具有企業(yè)溝通形象統(tǒng)一、服務(wù)質(zhì)量提升的特點(diǎn)，已被多家知名企業(yè)率先使用。尤其是在廣東、北京、廣州等城市...
01-13

shell腳本實(shí)現(xiàn)ssh自動登錄功能分享
文件名：ssh_auto_login 復(fù)制代碼代碼如下: #!/usr/bin/expect ## #ssh模擬登陸器 # #@author zhiyuan hzyhouzhiyuan艾特gmail.com ## if {$argc4} { p...
10-18

汕頭四川外呼系統(tǒng)（汕頭呼援通電話）
本文目錄一覽： 1、外呼系統(tǒng)真的有效果嗎？2、外呼軟件有哪些？3、外呼系統(tǒng)是什么意思4、電銷呼外系統(tǒng)，汕頭哪里有賣外...
11-28

小額電銷系統(tǒng)哪個好（小額貸款電銷好不好做）
本文目錄一覽： 1、電銷外呼體系哪個最好用2、電銷外呼體系哪家好3、2023年有哪些電銷體系好用?電銷外呼體系哪個最好用...
04-22

電話機(jī)器人買一個機(jī)器人要多少錢
8、查看撥打任務(wù)報(bào)告【買一個機(jī)器人要多少錢】面對時代的發(fā)展，科學(xué)技術(shù)的進(jìn)步，任何企業(yè)都需要隨著科學(xué)技術(shù)的變革而...
10-31

Asp.net控制Tomcat啟動關(guān)閉的實(shí)現(xiàn)方法
一、場景近日有個項(xiàng)目客戶要求能自己配置相關(guān)權(quán)限。由于歷史原因這個項(xiàng)目采用的是公司以前的權(quán)限系統(tǒng)。這個權(quán)限系統(tǒng)...
10-18

電信400是什么中國移動與中國電信的400電話怎么樣？
電信有400電話，電信400電話有4008個和4009個，從數(shù)字等級可以分為六個等級。企業(yè)可以從以下幾個層次選擇適合自己的400電話...
01-12

攝影類公眾號如何運(yùn)營
目前，很多影樓為了迎合市場的個性化需求，在影樓公眾號平臺提供了選購主題、預(yù)約檔期等，方便快捷。不過，當(dāng)家長提出...
03-01

優(yōu)谷電話機(jī)器人（優(yōu)谷智能機(jī)器人）
本文目錄一覽：1、好一點(diǎn)的外呼智能機(jī)器人有那些?2、優(yōu)谷智能電話機(jī)器人怎么樣3、有誰用過電銷機(jī)器人?效果怎么樣?4、電...
06-20

辦理400電話的費(fèi)用申請一個400電話需要多少費(fèi)用
對于普通人來說，400電話處理可能是一項(xiàng)相對陌生的業(yè)務(wù)，而對于一些大型企業(yè)或中小型服務(wù)企業(yè)，他們將想要申請400電話業(yè)...
01-13

蘇州不封號電話外呼系統(tǒng)哪家專業(yè)-淺析
蘇州不封號電話外呼系統(tǒng)哪家專業(yè)幫助企業(yè)高效過濾無效線索，提高外呼效率的準(zhǔn)確度。智能應(yīng)答：智能電銷系統(tǒng)的應(yīng)答與智...
01-16

青島企業(yè)電銷機(jī)器人（青島電話機(jī)器人）
今日給各位共享青島企業(yè)電銷機(jī)器人的常識，其間也會對青島電話機(jī)器人進(jìn)行解說，如果能可巧處理你現(xiàn)在面對的問題，別忘...
11-06

VIKI智能質(zhì)檢詳細(xì)功能，智能質(zhì)檢解決方案
VIKI基于云的智能質(zhì)檢，滿足企業(yè)快速使用需求，即開即用，大幅縮短上線周期;企業(yè)無需一次大筆投資，實(shí)現(xiàn)資金效用最大化...
01-15

用電話機(jī)器人推銷怎么樣（智能機(jī)器人怎么推銷）
今天給各位分享用電話機(jī)器人推銷怎么樣的知識，其中也會對智能機(jī)器人怎么推銷進(jìn)行解釋，如果能碰巧解決你現(xiàn)在面臨的問...
05-16

神州泰岳人工智能研究院推出DINFO-OEC能力認(rèn)證
DINFO-OEC首款面向業(yè)務(wù)建模的非結(jié)構(gòu)化文本分析挖掘平臺隨著AI+時代的不斷演進(jìn)，數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域...
10-19

河南智能電話營銷機(jī)器人(河南智能電話營銷機(jī)器人公司)
【龍騁AI智能語音】 2017年人工智能被首次寫入政府任務(wù)報(bào)告河南智能德律風(fēng)營銷呆板人，引發(fā)全球存眷河南智能德律風(fēng)營銷...
11-25

杭州電話呼叫中心系統(tǒng)穩(wěn)定升級，提高企業(yè)溝通效率!
企業(yè)與客戶溝通的渠道需要時時刻刻進(jìn)行更新與升級，這樣便于提高企業(yè)的整體溝通效率，杭州電話呼叫中心系統(tǒng)為各個大型...
07-13

電銷不封號系統(tǒng)電話機(jī)器人
電話營銷：通常呼叫中心的客服需要盲目的打電話號碼單，找到并判斷感興趣的、值得跟進(jìn)的客戶，將信息傳達(dá)到有需要的客...
10-24

Win10紅石版Edge瀏覽器新擴(kuò)展功能:關(guān)燈(附擴(kuò)展程序使用)
Win10為了照顧暗光下使用電腦的用戶，在很多應(yīng)用中都推出了暗黑主題，比如Edge瀏覽器的黑色皮膚。不過這種皮膚僅限于應(yīng)用...
10-20

江小白注冊多個酒類商標(biāo)
天眼查App顯示，近日，重慶江小白酒業(yè)有限公司申請注冊“二人飲”“九人飲”“百人飲”“千人飲”“萬人飲”等多個商標(biāo)...
10-23

python基于搜索引擎實(shí)現(xiàn)文章查重功能
前言文章抄襲在互聯(lián)網(wǎng)中普遍存在，很多博主都收受其煩。近幾年隨著互聯(lián)網(wǎng)的發(fā)展，抄襲等不道德行為在互聯(lián)網(wǎng)上愈演愈烈，甚至復(fù)制、黏貼后發(fā)布標(biāo)原創(chuàng)屢見不鮮，部分抄襲后的文...
10-18

本頁收集關(guān)于python基于搜索引擎實(shí)現(xiàn)文章查重功能的相關(guān)信息資訊供網(wǎng)民參考！

推薦文章

徐州電銷智能機(jī)器人

電子地圖標(biāo)注保存

獵豹電話機(jī)器人

電銷公司防封電銷卡品牌

湖北語音外呼系統(tǒng)代理商

汕頭外呼系統(tǒng)運(yùn)營商

天津銷售外呼系統(tǒng)代理商

臨沂市地圖標(biāo)注

云南房產(chǎn)電銷機(jī)器人報(bào)價(jià)

電話機(jī)器人要錢嗎

百度地圖+地圖標(biāo)注+zip

廈門ai外呼電銷機(jī)器人好用嗎

衢州銷售外呼系統(tǒng)

怎樣在高德地圖標(biāo)注坐標(biāo)

地圖標(biāo)注圖片輪播

地圖標(biāo)注比例尺

58同城地圖標(biāo)注

世界地圖簡圖標(biāo)注有大洋

重慶申請400電話號碼

深圳自動外呼系統(tǒng)價(jià)錢

惠州電銷防封電話卡

南京回?fù)芡夂粝到y(tǒng)哪家好

教育機(jī)構(gòu)外呼系統(tǒng)

淮安客服外呼系統(tǒng)軟件

合肥ai電銷機(jī)器人公司

成都人工智能電銷機(jī)器人排名

惠州電話外呼系統(tǒng)哪家好

優(yōu)惠的電銷機(jī)器人出售

外呼接聽系統(tǒng)

姑蘇申請400電話號碼

酒店名稱在百度地圖標(biāo)注

滴滴外呼系統(tǒng)服務(wù)商

臨沂電銷

東興電銷機(jī)器人

免費(fèi)做地圖標(biāo)注

山西便宜外呼系統(tǒng)

江西高頻外呼系統(tǒng)怎么安裝

北瀚AI電銷機(jī)器人使用說明

電腦外呼系統(tǒng)軟件排名

揚(yáng)州電腦外呼系統(tǒng)報(bào)價(jià)表

吳川電話機(jī)器人

外呼系統(tǒng)數(shù)據(jù)錄入

當(dāng)陽地圖標(biāo)注app

智捷外呼系統(tǒng)

地圖標(biāo)注要素

地圖標(biāo)注員

運(yùn)營商電話機(jī)器人

企業(yè)400電話辦理知乎

九寨溝400電話咨詢辦理

地圖標(biāo)注順序表

汕頭銷售外呼系統(tǒng)供應(yīng)商

淘寶店詳情頁加入地圖標(biāo)注

黃石地圖標(biāo)注app

淄博智能外呼系統(tǒng)一般多少錢

地圖標(biāo)注軟件破解版

奧維地圖標(biāo)注地點(diǎn)信息

福建電銷機(jī)器人怎么樣

電銷機(jī)器人有哪些功能

搜狗地圖標(biāo)注的起點(diǎn)終點(diǎn)怎么刪除

惠州電話外呼系統(tǒng)哪家強(qiáng)

廣東外呼系統(tǒng)如何

金融外呼線路

小語智能打電話機(jī)器人

JSC電話外呼系統(tǒng)

普洱電話外呼銷售系統(tǒng)公司

南昌人工智能電銷機(jī)器人報(bào)價(jià)

冀州如何申請400電話

百度地圖標(biāo)注添加超鏈接

外呼系統(tǒng)acw是什么意思

電話機(jī)器人軟件源代碼

鄭州自動外呼系統(tǒng)線路

濟(jì)南crm外呼系統(tǒng)線路

如何防止電銷機(jī)器人打電話過來

400手機(jī)電話在線辦理平臺

地圖標(biāo)注的具體內(nèi)容

云南電銷外呼系統(tǒng)好用嗎

電銷機(jī)器人圖解

濟(jì)南精準(zhǔn)外呼系統(tǒng)

400電話號在哪申請

外呼系統(tǒng)找哪家好

欣鼎電銷機(jī)器人400

新鄉(xiāng)外呼電話系統(tǒng)聯(lián)系電話

標(biāo)準(zhǔn)智能外呼系統(tǒng)供應(yīng)商家

呼和浩特自建外呼系統(tǒng)

欽州外呼系統(tǒng)供應(yīng)商

綿陽遼寧電話機(jī)器人

雅安手機(jī)外呼系統(tǒng)

電銷機(jī)器人查封

北京防封電銷卡套餐

廣東外呼系統(tǒng)供應(yīng)商

百度地圖標(biāo)注的信息框

安徽外呼系統(tǒng)辦理

新密電銷卡外呼系統(tǒng)違法嗎

電銷外呼系統(tǒng)怎么關(guān)閉

維語電話機(jī)器人

武漢高頻外呼系統(tǒng)

福州電話外呼系統(tǒng)穩(wěn)定嗎

武漢自動外呼系統(tǒng)價(jià)格

鼎銘音寶電銷機(jī)器人

長沙自動電話機(jī)器人

外呼sip線路申請

智能電話機(jī)器人招代理

門面沒有招牌能在地圖標(biāo)注嗎

武漢ai電銷機(jī)器人廠家

電腦奧維互動地圖標(biāo)注文字方法

辦理400熱線電話多少錢一年

海南怎么申請400電話

辦理達(dá)州400電話

百度地圖標(biāo)注進(jìn)度

滴滴汽車美容店地圖標(biāo)注

鄭州電話外呼系統(tǒng)線路

400電話辦理麻煩嗎

騰訊地圖標(biāo)注通過后搜索不到

高德地圖標(biāo)注地點(diǎn)可以遠(yuǎn)程操作嗎

申請400電話收費(fèi)標(biāo)

美橙智能電話機(jī)器人

咸寧云電銷機(jī)器人軟件

怎么地圖標(biāo)注所有客戶位置

新鄉(xiāng)平安400電話申請辦

天潤外呼系統(tǒng)的操作

python基于搜索引擎實(shí)現(xiàn)文章查重功能

上一篇：Python爬蟲之爬取最新更新的小說網(wǎng)站

下一篇：pygame實(shí)現(xiàn)井字棋之第一步繪制九宮格

一起分享吧