午夜视频免费看_日韩三级电影网站_国产精品久久一级_亚洲一级在线播放_人妻体内射精一区二区三区_91夜夜揉人人捏人人添红杏_91福利在线导航_国产又粗又猛又黄又爽无遮挡_欧美日韩一区在线播放_中文字幕一区二区三区四区不卡 _日日夜夜精品视频免费观看_欧美韩日一区二区三区

主頁 > 知識庫 > python實現余弦相似度文本比較的示例

python實現余弦相似度文本比較的示例

熱門標簽:悟空智電銷機器人6 溫州旅游地圖標注 蘇州電銷機器人十大排行榜 外呼不封號系統 荊州云電銷機器人供應商 幫人做地圖標注收費算詐騙嗎 電信營業廳400電話申請 遼寧400電話辦理多少錢 江蘇房產電銷機器人廠家

向量空間模型VSM:

VSM的介紹:

  一個文檔可以由文檔中的一系列關鍵詞組成,而VSM則是用這些關鍵詞的向量組成一篇文檔,其中的每個分量代表詞項在文檔中的相對重要性。

VSM的例子:

  比如說,一個文檔有分詞和去停用詞之后,有N個關鍵詞(或許去重后就有M個關鍵詞),文檔關鍵詞相應的表示為(d1,d2,d3,...,dn),而每個關鍵詞都有一個對應的權重(w1,w1,...,wn)。對于一篇文檔來說,或許所含的關鍵詞項比較少,文檔向量化后的向量維度可能不是很大。而對于多個文檔(2篇文檔或兩篇文檔以上),則需要合并所有文檔的關鍵詞(關鍵詞不能重復),形成一個不重復的關鍵詞集合,這個關鍵詞集合的個數就是每個文檔向量化后的向量的維度。打個比方說,總共有2篇文檔A和B,其中A有5個不重復的關鍵詞(a1,a2,a3,a4,a5),B有6個關鍵詞(b1,b2,b3,b4,b5,b6),而且假設b1和a3重復,則可以形成一個簡單的關鍵詞集(a1,a2,a3,a4,a5,,b2,b3,b4,b5,b6),則A文檔的向量可以表示為(ta1,ta2,ta3,ta4,ta5,0,0,0,0,0),B文檔可以表示為(0,0,tb1,0,0,tb2,tb3,tb4,tb5,tb6),其中的tb表示的對應的詞匯的權重。

最后,關鍵詞的權重一般都是有TF-IDF來表示,這樣的表示更加科學,更能反映出關鍵詞在文檔中的重要性,而如果僅僅是為數不大的文檔進行比較并且關鍵詞集也不是特別大,則可以采用詞項的詞頻來表示其權重(這種表示方法其實不怎么科學)。

TF-IDF權重計算:

TF的由來:

  以前在文檔搜索的時候,我們只考慮詞項在不在文檔中,在就是1,不在就是0。其實這并不科學,因為那些出現了很多次的詞項和只出現了一次的詞項會處于等同的地位,就是大家都是1.按照常理來說,文檔中詞項出現的頻率越高,那么就意味著這個詞項在文檔中的地位就越高,相應的權重就越大。而這個權重就是詞項出現的次數,這樣的權重計算結果被稱為詞頻(term frequency),用TF來表示。

IDF的出現:

  在用TF來表示權重的時候,會出現一個嚴重的問題:就是所有 的詞項都被認為是一樣重要的。但在實際中,某些詞項對文本相關性的計算來說毫無意義,舉個例子,所有的文檔都含有汽車這個詞匯,那么這個詞匯就沒有區分能力。解決這個問題的直接辦法就是讓那些在文檔集合中出現頻率較高的詞項獲得一個比較低的權重,而那些文檔出現頻率較低的詞項應該獲得一個較高的權重。

  為了獲得出現詞項T的所有的文檔的數目,我們需要引進一個文檔頻率df。由于df一般都比較大,為了便于計算,需要把它映射成一個較小的范圍。我們假設一個文檔集里的所有的文檔的數目是N,而詞項的逆文檔頻率(IDF)。計算的表達式如下所示:

  通過這個idf,我們就可以實現罕見詞的idf比較高,高頻詞的idf比較低。

TF-IDF的計算:

  TF-IDF = TF * IDF

  有了這個公式,我們就可以對文檔向量化后的每個詞給予一個權重,若不含這個詞,則權重為0。

余弦相似度的計算:

  有了上面的基礎知識,我們可以將每個分好詞和去停用詞的文檔進行文檔向量化,并計算出每一個詞項的權重,而且每個文檔的向量的維度都是一樣的,我們比較兩篇文檔的相似性就可以通過計算這兩個向量之間的cos夾角來得出。下面給出cos的計算公式:

  分母是每篇文檔向量的模的乘積,分子是兩個向量的乘積,cos值越趨向于1,則說明兩篇文檔越相似,反之越不相似。

文本比較實例:

對文本進行去停用詞和分詞:

文本未分詞前,如下圖所示:

  

文本分詞和去停用詞后,如下圖所示:

詞頻統計和文檔向量化

對經過上一步處理過的文檔,我們可以統計每個文檔中的詞項的詞頻,并且將其向量化,下面我直接給出文檔向量化之后的結果。注意:在這里由于只是比較兩篇文檔的相似性,所以我只用了tf來作為詞項的權重,并未使用tf-idf:

向量化后的結果是:

        [1,1,1,1,1,1,1,1,1,1,1,1,1,1]

  • 兩篇文檔進行相似度的計算,我會給出兩篇文檔的原文和最終計算的相似度:

    文檔原文如下所示:

    文檔A的內容

    文檔B的內容

    余弦相似度代碼實現:

    import  math
    # 兩篇待比較的文檔的路徑
    sourcefile = '1.txt'
    s2 = '2.txt'
    
    # 關鍵詞統計和詞頻統計,以列表形式返回
    def Count(resfile):
            t = {}
            infile = open(resfile, 'r', encoding='utf-8')
            f = infile.readlines()
            count = len(f)
            # print(count)
            infile.close()
    
            s = open(resfile, 'r', encoding='utf-8')
        i = 0
            while i  count:
                line = s.readline()
            # 去換行符
                line = line.rstrip('\n')
                # print(line)
                words = line.split(" ")
                #   print(words)
    
                for word in words:
                        if word != "" and t.__contains__(word):
                            num = t[word]
                        t[word] = num + 1
                        elif word != "":
                        t[word] = 1
                i = i + 1
    
            # 字典按鍵值降序
            dic = sorted(t.items(), key=lambda t: t[1], reverse=True)
            # print(dic)
            # print()
            s.close()
            return (dic)
    
    
    
    def MergeWord(T1,T2):
            MergeWord = []
            duplicateWord = 0
            for ch in range(len(T1)):
                MergeWord.append(T1[ch][0])
            for ch in range(len(T2)):
                if T2[ch][0] in MergeWord:
                        duplicateWord = duplicateWord + 1
                else:
                        MergeWord.append(T2[ch][0])
    
            # print('重復次數 = ' + str(duplicateWord))
            # 打印合并關鍵詞
            # print(MergeWord)
            return MergeWord
    
    # 得出文檔向量
    def CalVector(T1,MergeWord):
            TF1 = [0] * len(MergeWord)
    
        for ch in range(len(T1)):
                TermFrequence = T1[ch][1]
                word = T1[ch][0]
                i = 0
                while i  len(MergeWord):
                        if word == MergeWord[i]:
                        TF1[i] = TermFrequence
                        break
                        else:
                        i = i + 1
            # print(TF1)
            return TF1
    
    def CalConDis(v1,v2,lengthVector):
    
            # 計算出兩個向量的乘積
            B = 0
            i = 0
            while i  lengthVector:
                B = v1[i] * v2[i] + B
                i = i + 1
            # print('乘積 = ' + str(B))
    
            # 計算兩個向量的模的乘積
            A = 0
            A1 = 0
            A2 = 0
            i = 0
            while i  lengthVector:
                A1 = A1 + v1[i] * v1[i]
                i = i + 1
            # print('A1 = ' + str(A1))
    
            i = 0
            while i  lengthVector:
                A2 = A2 + v2[i] * v2[i]
                i = i + 1
               # print('A2 = ' + str(A2))
    
            A = math.sqrt(A1) * math.sqrt(A2)
            print('兩篇文章的相似度 = ' + format(float(B) / A,".3f"))
    
    
    
    T1 = Count(sourcefile)
    print("文檔1的詞頻統計如下:")
    print(T1)
    print()
    T2 = Count(s2)
    print("文檔2的詞頻統計如下:")
    print(T2)
    print()
    # 合并兩篇文檔的關鍵詞
    mergeword = MergeWord(T1,T2)
    #  print(mergeword)
    # print(len(mergeword))
    # 得出文檔向量
    v1 = CalVector(T1,mergeword)
    print("文檔1向量化得到的向量如下:")
    print(v1)
    print()
    v2 = CalVector(T2,mergeword)
    print("文檔2向量化得到的向量如下:")
    print(v2)
    print()
    # 計算余弦距離
    CalConDis(v1,v2,len(v1))

到此這篇關于python實現余弦相似度文本比較的文章就介紹到這了,更多相關python余弦相似度內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • Python 余弦相似度與皮爾遜相關系數 計算實例
  • Python 求向量的余弦值操作
  • python代碼如何實現余弦相似性計算
  • 余弦相似性計算及python代碼實現過程解析
  • Python繪制正余弦函數圖像的方法
  • Python使用matplotlib繪制余弦的散點圖示例
  • Python使用matplotlib繪制正弦和余弦曲線的方法示例

標簽:三沙 喀什 欽州 黃山 宿遷 景德鎮 臺灣 濟南

巨人網絡通訊聲明:本文標題《python實現余弦相似度文本比較的示例》,本文關鍵詞  python,實現,余弦,相似,度,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《python實現余弦相似度文本比較的示例》相關的同類信息!
  • 本頁收集關于python實現余弦相似度文本比較的示例的相關信息資訊供網民參考!
  • 推薦文章
    亚洲一区二区精品3399| 91av视频在线| 国产精品久久久精品| 久久婷婷国产综合尤物精品| 欧美日韩性生活片| caopor在线| aaa人片在线| 日韩电影一区二区三区| 国产日本欧洲亚洲| 日韩一级二级三级精品视频| 欧美一级淫片videoshd| 国产免费一区二区三区四在线播放 | 韩国日本美国免费毛片| 日韩在线一卡二卡| 日韩avvvv在线播放| 亚洲国产成人91porn| www.日韩不卡电影av| 国产伦理一区二区三区| 黄色三级视频在线播放| 久久国产香蕉视频| 中文字幕av一区二区三区| 日韩欧美黄色影院| 亚洲va久久久噜噜噜久久天堂| 六月丁香婷婷激情| 日本一级淫片色费放| 国产成人精品一区二| 精品污污网站免费看| 欧美重口另类videos人妖| 大荫蒂性生交片| 国产suv一区二区三区| 国产精品夜夜爽| 制服丝袜国产精品| 亚洲一区二区三| 色欲欲www成人网站| 国产精品久久久久久免费免熟 | 亚洲黄色一级大片| 国产一级淫片免费| 亚洲第一区第二区| 精品国产一区二区三| 欧美国产一区二区| 99999精品视频| 一本色道久久综合狠狠躁的推荐 | 日本美女久久久| 国产精品一区久久| 国产一区二区不卡在线| 天天久久综合网| 欧美大片免费观看在线观看网站推荐| aaaaaa亚洲| 日韩av在线网| 丁香另类激情小说| 精品人妻一区二区三区三区四区| 四虎国产成人精品免费一女五男| 欧美亚洲精品日韩| 91福利国产精品| 少妇无套内谢久久久久| 国产va免费精品高清在线观看| 日本精品久久久久| 亚洲 激情 在线| 99re这里只有精品首页| 日韩av高清在线看片| 国产91在线播放| 国产日韩视频一区二区三区| 日韩美女黄色片| 免费成人深夜夜行视频| 日韩欧美亚洲视频| 真实国产乱子伦对白视频| 一区二区欧美久久| 麻豆传媒一区二区三区| 思思久久精品视频| 欧美视频一区二区| 国产精品老女人| 久久精品国产精品青草色艺| 亚洲一区二区欧美激情| 在线天堂一区av电影| 成人免费福利片| 午夜精品美女久久久久av福利| 国产中文一区二区三区| 久久久久成人精品无码| 精品国产免费人成电影在线观...| 欧美在线小视频| 国产精品影音先锋| 亚洲第一页在线观看| www.亚洲激情| 精品不卡一区二区| 久久av秘一区二区三区| 欧美成人激情在线| 亚洲男人的天堂在线aⅴ视频| 亚洲观看黄色网| 成人免费激情视频| 欧美一级淫片007| 极品魔鬼身材女神啪啪精品| 国产精品日韩欧美| 中文字幕亚洲欧美日韩2019| 91精品国产麻豆国产自产在线| 久久精品国语| 人妻巨大乳一二三区| 欧美一级电影免费在线观看| 天天操天天干天天舔| 91久久国产视频| 国产精品suv一区二区88| www.色小姐com| 性高潮视频在线观看| 亚洲精品中文字幕成人片 | 久久精品成人一区二区三区| 激情综合亚洲精品| 国产又粗又猛又爽视频| 亚洲综合av一区| 亚洲一区二区在线| 欧美国产精品久久| 免费看毛片网站| 特级片在线观看| 午夜剧场在线免费观看| 国产成人精品自拍| 中文字幕国内精品| 国产精品久久三| 视频这里只有精品| 一区二区三区 欧美| 给我免费播放片在线观看| 日韩av手机版| 国产精品免费人成网站酒店| 日本一级二级视频| 黄色香蕉视频在线观看| 伊人成色综合网| 国产精品久久久久久久久久新婚| 日韩欧美色电影| 中文一区一区三区高中清不卡| 蜜桃久久精品一区二区| 东方伊人免费在线观看| 国产97在线视频| 亚洲人成亚洲人成在线观看图片 | 欧美专区第一页| 91福利精品视频| 欧美日本一区二区| 日韩免费观看高清完整版| 日本道精品一区二区三区| 成人少妇影院yyyy| 91亚洲视频在线观看| 舐め犯し波多野结衣在线观看| 女同性αv亚洲女同志| 成人污网站在线观看| 欧美在线视频免费播放| 日韩成人小视频| 精品视频一区三区九区| 久久精品一区二区三区不卡| 亚洲一区二区三区综合| 91欧美激情另类亚洲| 色婷婷国产精品久久包臀| 蜜桃久久精品一区二区| 亚洲aⅴ在线观看| 成人久久精品人妻一区二区三区| 精品人妻中文无码av在线 | 亚洲欧美国产精品| 成人av网站观看| 成年人视频在线免费| 我要看黄色一级片| 美腿丝袜亚洲色图| 国产精品综合一区二区三区| 糖心vlog精品一区二区| 先锋影音一区二区三区| 国产三级精品网站| 欧美精品与人动性物交免费看| 日本一区高清不卡| 精品国产乱码久久久久久蜜臀| 精品一区二区免费看| 欧美成人综合色| 国产高清视频网站| 69久久久久久| 亚洲av无码一区二区三区观看| 亚洲人精品午夜射精日韩| 欧美 丝袜 自拍 制服 另类| 亚洲综合伊人久久| 成都免费高清电影| 青青草偷拍视频| 国产探花在线免费观看| 性少妇xx生活| 国产精品高清无码在线观看| 日韩一级片在线免费观看| 性色av无码久久一区二区三区| 中文字幕成人一区| 69**夜色精品国产69乱| 亚洲精品动漫久久久久| 色菇凉天天综合网| 一区二区中文视频| 欧美日韩视频在线一区二区| 亚洲欧美日韩天堂| 日韩精品在线视频观看| 国内成人精品一区| 亚洲国产精品一区在线观看不卡| 免费成年人视频在线观看| av毛片久久久久**hd| 欧美成人官网二区| 日本久久亚洲电影| 99re在线播放| 欧美日韩国产三区| 中文字幕在线观看一区二区三区| 555www成人网| 91国产在线播放| 亚洲AV无码成人精品一区| 国产精品成人久久久久| 欧美成人中文字幕在线| 中文字幕一区日韩电影| 国产一区二区三区视频 | 日本一本高清视频| 黄色片一区二区三区| 天天干天天草天天射| 懂色中文一区二区在线播放| 一本色道综合亚洲| 欧美激情亚洲一区| 大片在线观看网站免费收看| 57pao成人永久免费视频| 国产精品视频播放| 免费人成自慰网站| 免费国产成人av| 少妇搡bbbb搡bbb搡打电话| 日本欧美视频在线观看| 国产乱淫av片杨贵妃| 欧美一级在线看| 亚洲第一区第二区第三区| 日本国产一级片| 99久久久无码国产精品免费蜜柚| 中文字幕久久午夜不卡| 国产传媒久久文化传媒| 91久久精品一区二区三区| 91精品在线国产| 青青草原国产视频| av在线免费不卡| 亚洲国产一区二区a毛片| 精品无人国产偷自产在线| 欧美一级大片在线观看| 欧美精品一区二区三区四区五区| 青青青国产在线视频| 久久久久久久久久久久久av| 精品人妻伦九区久久aaa片| 91免费公开视频| 一级片一区二区三区| 午夜国产在线观看| 国产精品久久久久久久久动漫| 欧美精品www在线观看| 北条麻妃69av| 成年人免费看毛片| 不卡免费追剧大全电视剧网站| 91国产免费观看| 一本一道久久久a久久久精品91 | 我要看一级黄色大片| 亚洲爱情岛论坛永久| 亚洲www啪成人一区二区麻豆 | 蜜桃av免费观看| 亚洲精品一区二区三区新线路| 亚洲一区二区五区| 国产98在线|日韩| 日本男女交配视频| 国产黑丝在线视频| 日本免费一二三区| 精品一区二区三区香蕉蜜桃| 亚洲国产裸拍裸体视频在线观看乱了| 亚洲激情视频在线观看| 97视频久久久| 中文字幕福利视频| 久久一区二区视频| 欧美一区在线直播| 亚洲 小说 欧美 激情 另类| 色久优优欧美色久优优| 99热手机在线| 亚洲精品伦理在线| 国自产拍偷拍精品啪啪一区二区| 成人综合婷婷国产精品久久免费| 日韩av电影免费观看| 日韩一卡二卡在线观看| 国产欧美日韩三级| 久久精品一区中文字幕| 91亚洲精品久久久蜜桃借种| 久久综合图片| 亚洲精品一区二区网址| 噜噜噜噜噜久久久久久91| 性高潮久久久久久久| 中文字幕二三区不卡| 国产欧美亚洲日本| 少妇av在线播放| 亚洲欧美第一页| 91人人澡人人爽人人精品| 国产女主播一区| 最近2019中文免费高清视频观看www99 | 欧美国产日韩二区| 日本一区二区网站| 欧洲美女免费图片一区| 亚洲色偷精品一区二区三区| 国产精品有限公司| 国产自产视频一区二区三区| 五月天亚洲综合情| 日韩高清在线电影| 欧美精品福利在线| 在线观看视频你懂得| 久久久精品国产99久久精品芒果 | 亚洲av无一区二区三区| 欧美一区永久视频免费观看| 99久久自偷自偷国产精品不卡| 视频免费在线观看| 国产精品国产三级国产a| 免费的一级黄色片| 丁香一区二区三区| 国产日韩精品在线| 国产又粗又长又黄| 久久久精品网站| 欧美福利视频一区二区| 中文字幕亚洲一区二区va在线| 久久久999精品| 欧美爱爱小视频| 欧美日韩国产区一| 37pao成人国产永久免费视频| 日韩理论在线观看| 日本三区在线观看| 国产精品乱人伦| 欧美一区二区视频17c| 国产精品国产三级国产aⅴ| 久久亚洲国产精品| 国产精品.www| 俺也去精品视频在线观看| 日本少妇激三级做爰在线| www.日韩av| 成人av电影天堂| 精品区在线观看| 亚洲午夜精品国产| 亚洲一区二区三区精品在线| 国产一线二线三线女| 亚洲国产激情av| 精品久久久久久中文字幕2017| 亚洲一区二区成人在线观看| 欧美专区日韩视频| 日本成人中文字幕在线视频| 久久国产主播精品| 久久精品这里都是精品| 中文字幕免费高清视频| 日本亚洲精品在线观看| 久久欧美一区二区| 久久午夜无码鲁丝片| 欧美日韩综合精品| 欧美一区二区三区影视| 依依成人在线视频| 国产精品久久久久久久午夜| 日韩电影在线免费| 精品无码久久久久国产| 成人一道本在线| 亚洲熟妇无码另类久久久| 亚洲桃色在线一区| 野花社区视频在线观看| 蜜臀久久99精品久久久久久宅男 | 色婷婷一区二区| 亚洲天堂网站在线| 欧美色倩网站大全免费| av地址在线观看| 亚洲美女av在线| 黄色av免费观看| 日本午夜精品一区二区| 成人黄色大片在线观看 | 亚洲精品一二区| 国产精品综合一区二区三区| 国产在线观看无码免费视频| 亚洲狠狠婷婷综合久久久| 精品成人a区在线观看| 久久久久久婷| 久久久久久久久久一区二区| 欧美激情综合亚洲一二区| 黑人精品欧美一区二区蜜桃| 国产91视频一区| 亚洲国产视频网站| 开心激情五月网| 日本sm极度另类视频| www.亚洲色图.com| 中文字幕一区二区三区人妻在线视频| 亚洲精品一区中文字幕乱码| 狠狠躁日日躁夜夜躁av| 亚洲va码欧洲m码| av在线不卡免费看| 男女无套免费视频网站动漫| 日韩视频在线永久播放| 日韩av综合在线| 99久久精品久久久久久ai换脸| 国产性色一区二区| 国产午夜手机精彩视频| 精品久久久久久一区| 欧美色爱综合网| 精品无码免费视频| 精品久久久久久乱码天堂| 欧美日韩精品免费观看视频 | 国产精品日韩成人| 欧美日韩国产精选| 欧美激情欧美狂野欧美精品| 国产一区二区免费在线观看| 亚洲xxxx2d动漫1| 91九色丨porny丨极品女神| 天天干天天舔天天射| 成人免费一区二区三区在线观看 | 亚洲黄色在线观看视频| 国产日本一区二区| 亚洲国产女人aaa毛片在线| 国产精品视频地址| 日本中文字幕亚洲| 人妻人人澡人人添人人爽| 日韩激情在线观看| 精品国产91久久久久久| 欧美肥婆姓交大片| 亚洲自拍偷拍一区二区三区| 91成人在线免费视频| 老熟妇高潮一区二区高清视频| 亚洲欧美日韩久久| www.亚洲免费视频| 在线看无码的免费网站| 日本女人性生活视频| 久久www免费人成看片高清| 欧美亚洲国产一区二区三区va|