Appearance
基于Word2Vec的查询扩展能力 #
1 功能概述 #
基于Word2Vec的查询扩展能力的设计,向外部提供一种可以训练自己的检索模型的能力,查询扩展技术可有效解决词不匹配以及查询描述不全的问题,在减轻用户查询负担的同时提高检索效率,用户只需提供领域数据,模型就可以根据用户提供的数据进行学习训练,最终得到属于该领域的检索模型。
2 功能需求 #
基于Word2Vec的查询扩展能力,致力于解决查询需求或者查询时输入词语过短导致检索系统无法准确获取查询意图,再加上在自然语言中,同义词、近义词以及词语歧义等问题的存在,导致了检索系统往往不能准确并全面的返回包含用户需求的文档。该能力调用方法简单,使之针对不同领域的数据,通过简单的参数调整,可以训练自己的检索模型,用户输入某一关键词时,即可返回多个同义词或者短语。
3 模型训练 #
3.1 处理流程 #
首先收集相关领域语料,通过数据清洗和预处理、分词、去停用词、算法模型构建、模型训练、模型保存,最终得到属于该领域相关的词向量模型。流程图如下图所示:
3.2 输入输出 #
输入:将某领域数据集以格式化文件形式输入。
输出:将训练好得到的网络模型及参数以格式化文件形式保存。
4 模型使用 #
4.1 处理流程 #
输入关键词,通过选取语料集利用Word2Vec工具进行训练得到词向量文件,根据词向量之间的相似度计算对用户提交的查询词选取相似词作为扩展词候选集,然后根据相似度对候选集中的词语进行筛选建立扩展词表。整体流程如下:
4.2 输入输出 #
输入:待扩展关键词。
输出:扩展词表。