Skip to content
当前页面

新词发现能力

1 功能概述

新词发现能力的设计,主要用以解决自然语言处理、信息检索、文本挖掘等任务过程中新词/短语的识别问题,在没有先验词典的情况下,通过定期收集新的语料,经过文本预处理、语料格式转换等,提取多个文本的特征信息、判断新词汇/短语。对词库进行定时更新。

2 功能需求

通过机器学习算法,在没有人工词典的情况下,从特定领域的语料库中发现新词语、新概念,帮助解决一些歧义切分的问题,提高汉语分词的准确度,对输入的雨料进行处理,输出一系列的词汇,再通过和现有词典进行对比及人工审核,更新现有词库。

3 处理流程

首先通过一种智能化的方式,定期收集新的语料,经过文本预处理、语料格式转换等,提取多个文本的特征信息,从不同的方向以及不同的长度对语料库文本进行处理,实现多个维度的新词汇发现,判断新词。对词库进行定时更新。整体流程如下图所示:

4 输入输出

输入:某领域待处理的文本语料,采用格式化的文件形式输入。

输出:以格式化文件形式输出可能存在的新词汇。

文档中心