在當(dāng)今互聯(lián)網(wǎng)時代,搜索功能已成為連接用戶需求與海量信息的關(guān)鍵橋梁。對于美團(tuán)這樣的本地生活服務(wù)平臺而言,搜索體驗的優(yōu)劣直接關(guān)系到用戶的決策效率和平臺的商業(yè)價值。面對用戶輸入簡短、模糊、口語化甚至包含錯誤的查詢詞,如何精準(zhǔn)理解其真實(shí)意圖并返回相關(guān)結(jié)果,是搜索技術(shù)面臨的核心挑戰(zhàn)。查詢改寫技術(shù)(Query Rewriting)應(yīng)運(yùn)而生,旨在將原始查詢轉(zhuǎn)化為更能表達(dá)用戶意圖、更匹配系統(tǒng)文檔的查詢形式,從而提升搜索的相關(guān)性和召回率。
一、查詢改寫技術(shù)的核心價值與挑戰(zhàn)
在美團(tuán)搜索場景下,查詢改寫技術(shù)的價值尤為凸顯。用戶搜索“附近好吃的火鍋”,其潛在意圖可能包括尋找高評分、有優(yōu)惠、特定品牌或適合聚會的火鍋店。原始查詢的模糊性可能導(dǎo)致結(jié)果不全面或偏差。通過改寫技術(shù),系統(tǒng)可以生成如“海底撈 優(yōu)惠套餐”、“重慶老火鍋 評分4.5以上”、“多人包間火鍋店”等一系列擴(kuò)展或精煉的查詢,從不同維度滿足用戶需求。
實(shí)踐之路充滿挑戰(zhàn):
- 意圖多樣性:同一查詢在不同上下文(如地理位置、時間、用戶歷史)下意圖可能不同。
- 語義鴻溝:用戶自然語言表達(dá)與系統(tǒng)內(nèi)結(jié)構(gòu)化數(shù)據(jù)(如商戶標(biāo)簽、菜品名稱)之間存在差異。
- 效率與實(shí)時性:改寫需要在毫秒級內(nèi)完成,不能影響搜索的整體響應(yīng)速度。
- 評估難度:如何準(zhǔn)確衡量改寫查詢對最終業(yè)務(wù)指標(biāo)(如點(diǎn)擊率、轉(zhuǎn)化率)的提升效果。
二、技術(shù)探索:從規(guī)則到深度學(xué)習(xí)
美團(tuán)搜索團(tuán)隊在查詢改寫技術(shù)的演進(jìn)上,大致經(jīng)歷了三個階段:
1. 基于規(guī)則與詞典的初級階段
早期主要依賴人工的規(guī)則、同義詞詞典和熱門查詢模板。例如,將“火鍋”關(guān)聯(lián)到“四川火鍋”、“涮羊肉”,或?qū)ⅰ昂贸缘摹睒?biāo)準(zhǔn)化為“高評分”。這種方法直觀可控,但覆蓋范圍有限,難以應(yīng)對層出不窮的新表達(dá)和復(fù)雜語義,維護(hù)成本高昂。
2. 基于傳統(tǒng)機(jī)器學(xué)習(xí)的演進(jìn)
隨著數(shù)據(jù)積累,開始采用統(tǒng)計機(jī)器學(xué)習(xí)方法。例如,通過分析海量搜索日志,挖掘查詢詞之間的共現(xiàn)關(guān)系、會話關(guān)聯(lián),構(gòu)建查詢擴(kuò)展模型。隱式反饋數(shù)據(jù)(如點(diǎn)擊、購買)被用來學(xué)習(xí)查詢與文檔的相關(guān)性,從而指導(dǎo)改寫。這類方法數(shù)據(jù)驅(qū)動,覆蓋能力更強(qiáng),但對特征工程的依賴較大。
3. 基于深度學(xué)習(xí)的深化應(yīng)用
當(dāng)前,深度學(xué)習(xí)已成為主流。美團(tuán)探索并實(shí)踐了多種先進(jìn)模型:
- 序列到序列(Seq2Seq)模型:將原始查詢作為輸入,直接生成改寫后的查詢。通過引入注意力機(jī)制,提升生成質(zhì)量。
- 預(yù)訓(xùn)練語言模型(如BERT、ERNIE)的應(yīng)用:利用其在語義理解上的強(qiáng)大能力,進(jìn)行查詢意圖分類、查詢對相關(guān)性判斷以及生成式改寫。例如,通過微調(diào)預(yù)訓(xùn)練模型來識別“附近口碑好的川菜館”中的核心意圖(菜系:川菜)、屬性(口碑好)和范圍(附近)。
- 融合知識圖譜:將美團(tuán)豐富的本地生活知識圖譜(包含商戶、菜品、地點(diǎn)、屬性等實(shí)體及關(guān)系)融入改寫過程。例如,當(dāng)用戶搜索“星巴克新品”,系統(tǒng)能識別“星巴克”為品牌實(shí)體,并關(guān)聯(lián)知識圖譜中該品牌當(dāng)前季度的實(shí)際新品名稱進(jìn)行精準(zhǔn)改寫或補(bǔ)充。
- 強(qiáng)化學(xué)習(xí)優(yōu)化:將整個搜索排序環(huán)節(jié)作為環(huán)境,以最終的用戶滿意指標(biāo)(如下單率)作為獎勵,訓(xùn)練改寫模型,使其生成能導(dǎo)向更優(yōu)最終結(jié)果的查詢。
三、工程實(shí)踐:系統(tǒng)架構(gòu)與效果評估
在工程落地上,美團(tuán)構(gòu)建了高效、穩(wěn)定的查詢改寫系統(tǒng)。其核心架構(gòu)通常包括:
- 實(shí)時分析模塊:對用戶原始查詢進(jìn)行快速解析、分詞、實(shí)體識別。
- 多路召回策略:并行觸發(fā)基于規(guī)則的改寫、基于模型(深度學(xué)習(xí)模型)的改寫以及基于實(shí)時熱點(diǎn)(如突發(fā)新聞、新上架商品)的改寫。
- 融合與排序模塊:對多路產(chǎn)生的候選改寫查詢進(jìn)行去重、相關(guān)性打分和排序,選取最可能提升搜索體驗的Top N個改寫查詢,送入后續(xù)的召回與排序引擎。
- 在線學(xué)習(xí)與更新:系統(tǒng)能夠根據(jù)線上實(shí)時反饋數(shù)據(jù),快速調(diào)整模型或策略,適應(yīng)變化。
效果評估體系分為離線評估和在線A/B測試:
- 離線評估:使用人工標(biāo)注的測試集評估改寫的準(zhǔn)確性、相關(guān)性和流暢度;計算改寫查詢與點(diǎn)擊文檔之間的語義相關(guān)性指標(biāo)。
- 在線A/B測試:這是黃金標(biāo)準(zhǔn)。通過對比實(shí)驗,直接觀察引入或優(yōu)化改寫技術(shù)后,對核心業(yè)務(wù)指標(biāo)如查詢滿意度、點(diǎn)擊率、轉(zhuǎn)化率、交易金額等的影響。只有在線實(shí)驗證明有顯著正向收益的技術(shù)迭代才會被全量發(fā)布。
四、未來展望
查詢改寫技術(shù)的探索永無止境。美團(tuán)搜索將繼續(xù)在以下方向深化實(shí)踐:
- 多模態(tài)與跨模態(tài)理解:結(jié)合用戶上傳的圖片、語音進(jìn)行查詢改寫。例如,用戶拍攝一種菜品圖片搜索,系統(tǒng)能準(zhǔn)確識別并改寫為對應(yīng)的菜名及相關(guān)查詢。
- 個性化與上下文感知:更深層次地融合用戶畫像、實(shí)時地理位置、歷史行為乃至當(dāng)前會話的上下文,提供“千人千面”的精準(zhǔn)改寫。
- 可解釋性與可控性:讓深度學(xué)習(xí)模型不再是“黑箱”,使改寫結(jié)果對運(yùn)營和產(chǎn)品人員更可理解、可干預(yù),平衡算法的智能與業(yè)務(wù)規(guī)則的控制。
- 端到端聯(lián)合優(yōu)化:將查詢改寫與文檔召回、結(jié)果排序等下游任務(wù)進(jìn)行更緊密的端到端聯(lián)合建模與優(yōu)化,追求全局最優(yōu)的搜索體驗。
###
美團(tuán)搜索中的查詢改寫技術(shù),是從簡單規(guī)則到復(fù)雜AI系統(tǒng)不斷演進(jìn)的縮影。它不僅是自然語言處理技術(shù)的應(yīng)用舞臺,更是深刻理解用戶、連接線下豐富服務(wù)的關(guān)鍵一環(huán)。通過持續(xù)的技術(shù)探索與扎實(shí)的工程實(shí)踐,美團(tuán)致力于讓每一次搜索都更智能、更貼心,最終實(shí)現(xiàn)“幫大家吃得更好,生活更好”的使命。這背后,是計算機(jī)信息技術(shù)咨詢服務(wù)所倡導(dǎo)的以技術(shù)驅(qū)動業(yè)務(wù)、以數(shù)據(jù)賦能決策的核心理念的生動體現(xiàn)。