Appearance
新词发现能力 #
1 功能概述 #
新词发现能力的设计,主要用以解决自然语言处理、信息检索、文本挖掘等任务过程中新词/短语的识别问题,在没有先验词典的情况下,通过定期收集新的语料,经过文本预处理、语料格式转换等,提取多个文本的特征信息、判断新词汇/短语。对词库进行定时更新。
2 功能需求 #
通过机器学习算法,在没有人工词典的情况下,从特定领域的语料库中发现新词语、新概念,帮助解决一些歧义切分的问题,提高汉语分词的准确度,对输入的雨料进行处理,输出一系列的词汇,再通过和现有词典进行对比及人工审核,更新现有词库。
3 处理流程 #
首先通过一种智能化的方式,定期收集新的语料,经过文本预处理、语料格式转换等,提取多个文本的特征信息,从不同的方向以及不同的长度对语料库文本进行处理,实现多个维度的新词汇发现,判断新词。对词库进行定时更新。整体流程如下图所示:
4 输入输出 #
输入:某领域待处理的文本语料,采用格式化的文件形式输入。
输出:以格式化文件形式输出可能存在的新词汇。