分類導(dǎo)航

lucene倒排索引緩沖池的細(xì)節(jié)

發(fā)布時(shí)間：2017年03月11日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除 (該文來自筆記，點(diǎn)擊查看原文)

倒排索引要存哪些信息

??提到倒排索引，第一感覺是詞到文檔列表的映射，實(shí)際上，倒排索引需要存儲(chǔ)的信息不止詞和文檔列表。為了使用余弦相似度計(jì)算搜索詞和文檔的相似度，需要計(jì)算文檔中每個(gè)詞的TF-IDF值，這樣就需要記錄詞在每個(gè)文檔中出現(xiàn)的頻率以及包含這個(gè)詞的文檔數(shù)量，前者需要對(duì)應(yīng)每個(gè)文檔記錄一個(gè)值，后者就是倒排表長(zhǎng)度。除此以外，為了能夠高亮搜索結(jié)果，需要記錄每個(gè)詞在文檔中的偏移信息（起始位置和長(zhǎng)度），為了支持短語查詢，需要記錄每個(gè)詞的position信息，注意position和offset不是一個(gè)概念，position是文檔分詞之后得到的term序列中詞的位置，offset是分詞之前的偏移，如果文檔中一個(gè)詞被分成多個(gè)Term，那么這些Term將共享同一個(gè)position，典型場(chǎng)景是同義詞，這在自然語言處理中很有用。如果用戶希望在Term級(jí)別干預(yù)查詢打分結(jié)果，那么就需要對(duì)文檔中的每個(gè)詞存儲(chǔ)額外的信息（payload）。

??綜上，倒排索引需要存儲(chǔ)的信息主要有以下幾方面：

詞（Term）
倒排文檔列表（DocIDList）
詞頻（TermFreq）
Position
Offset
Payload

??有幾點(diǎn)需要特別說明，lucene中Term是對(duì)每個(gè)Field而言的，也就是說在Document不同F(xiàn)ield中出現(xiàn)的相同字面的詞也算不同的Term。搞清楚了這一點(diǎn)，就很容易理解TermFreq、Position、Offset、Payload都是在一個(gè)Document中Field下的統(tǒng)計(jì)量。另外，同一個(gè)Term在同一個(gè)Document的同一個(gè)Field中，Position、Offset、Payload可能會(huì)出現(xiàn)多次，次數(shù)由TermFreq決定。

lucene中倒排索引的邏輯結(jié)構(gòu)如下：

        		延伸閱讀
        		
        			
        			ssh框架
        			2016-09-30
        			
        			
        			
        			阿里移動(dòng)安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍(lán)牙鎖
        			2017-07-26
        			
        			
        			
        			消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe
        			2024-03-26
        			
        			
        			
        			Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】
        			2017-07-26
        			
        			
        			
        			詞向量-LRWE模型-更好地識(shí)別反義詞同義詞
        			2017-07-26
        			
        			
        			
        			從棧不平衡問題 理解 calling convention
        			2017-07-26
        			
        			
        			
        			php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明
        			2017-07-26
        			
        			
        			
        			Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解
        			2017-07-26
        			
        			
        			
        			阿里移動(dòng)安全 Android端惡意鎖屏勒索應(yīng)用分析
        			2017-07-26
        			
        			
        			
        			集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二)
        			2017-07-26
        			
        			
        			
        		
        		
        		學(xué)習(xí)是年輕人改變自己的最好方式

我想了解如何學(xué)習(xí)