摘要:前言 前面的案例使用standard、english分詞器,是英文原生的分詞器,對中文分詞支持不太好。中文作為全球最優美、最復雜的語言,目前中文分詞器較多,ik analyzer、結巴中文分詞、THULAC、NLPIR和阿里的aliws都是非常優秀的,我們以ik analyzer作為講解的重點,其它 閱讀全文
posted @ 2020-03-28 10:56 清茶豆奶 閱讀 (28) 評論 (0) 編輯
摘要:主要介紹了相關性評分算法的基礎知識,能夠使用工具查看評分的詳細過程,可以輔助解釋一些困惑的現象,最后簡單介紹了一下正排索引的應用場景 閱讀全文
posted @ 2020-01-05 08:24 清茶豆奶 閱讀 (140) 評論 (0) 編輯
摘要:前言 前面的案例使用standard、english分詞器,是英文原生的分詞器,對中文分詞支持不太好。中文作為全球最優美、最復雜的語言,目前中文分詞器較多,ik analyzer、結巴中文分詞、THULAC、NLPIR和阿里的aliws都是非常優秀的,我們以ik analyzer作為講解的重點,其它 閱讀全文
posted @ 2020-03-28 10:56 清茶豆奶 閱讀 (28) 評論 (0) 編輯
摘要:本篇介紹了前綴搜索,通配符搜索和正則搜索的基本玩法,對前綴搜索的性能影響和控制手段做了簡單講解,ngram在索引時局部搜索和搜索提示是非常經典的做法,最后順帶介紹了一下模糊搜索的常規用法,可以了解一下 閱讀全文
posted @ 2020-03-22 09:17 清茶豆奶 閱讀 (35) 評論 (4) 編輯
摘要:主要介紹近似匹配的常規玩法,以及rescoring優化性能的思路 閱讀全文
posted @ 2020-03-22 09:16 清茶豆奶 閱讀 (32) 評論 (0) 編輯
摘要:了解一下多字段搜索的場景,和要注意的細節點,精準搜索是一個非常大的話題,優化的空間沒有上限,可以先從最基礎的場景和調整語法開始嘗試。 閱讀全文
posted @ 2020-03-22 09:14 清茶豆奶 閱讀 (155) 評論 (0) 編輯
摘要:概要 本篇介紹怎樣在全文字段中搜索到最相關的文檔,包含手動控制搜索的精準度,搜索條件權重控制。 手動控制搜索的精準度 搜索的兩個重要維度:相關性(Relevance)和分析(Analysis)。 相關性是評價查詢條件與結果的相關程度,并對相關程度進行排序,一般使用TF/IDF方法。 分析是指將索引文 閱讀全文
posted @ 2020-03-03 07:49 清茶豆奶 閱讀 (291) 評論 (2) 編輯
摘要:主要介紹shard內部的原理,包含寫入、更新刪除,translog機制,segment合并等,了解數據庫的童鞋對translog機制應該非常熟悉,原理上大同小異,僅作拋磚引玉 閱讀全文
posted @ 2020-01-23 08:32 清茶豆奶 閱讀 (38) 評論 (0) 編輯
摘要:結構化搜索針對日期、時間、數字等結構化數據的搜索,它們有自己的格式,我們可以對它們進行范圍,比較大小等邏輯操作,這些邏輯操作得到的結果非黑即白,要么符合條件在結果集里,要么不符合條件在結果集之外,沒有那種相似的概念 閱讀全文
posted @ 2020-01-23 08:30 清茶豆奶 閱讀 (206) 評論 (0) 編輯
摘要:本篇介紹了零?;饕亟ú僮韉娜齜槳?,從自研功能、scroll+bulk到reindex,我們作為Elasticsearch的使用者,三個方案的參與度是逐漸弱化的,但穩定性卻是逐漸上升的,我們需要清楚地去了解各個方案的優劣,適宜的場景,然后根據實際的情況去權衡,哪個方案更適合我們的業務模型,僅供參考,謝謝 閱讀全文
posted @ 2020-01-18 10:02 清茶豆奶 閱讀 (43) 評論 (0) 編輯
摘要:Elasticsearch讓索引創建變得非常簡單,只要索引一條新的數據,索引會自動創建出來,但隨著數據量的增加,我們開始有了索引優化和搜索優化的需求之后,就會發現自動創建的索引在某些方面不能非常完美的適應我們的需求,我們開始考慮手動創建適合我們業務需求的索引 閱讀全文
posted @ 2020-01-18 09:34 清茶豆奶 閱讀 (25) 評論 (0) 編輯
摘要:主要介紹一下分布式環境中搜索的兩階段執行過程 閱讀全文
posted @ 2020-01-18 09:26 清茶豆奶 閱讀 (305) 評論 (0) 韩国快乐8开奖结果查询