文本分类能力

1 功能概述

文本分类模型能力的设计，向外部提供一种可以训练自己的文本分类器的能力，用户只需提供待分类数据文本及对应的标签文件，模型就可以根据用户提供的数据进行学习训练，最终得到属于该类数据的文本分类器，用户也可以利用该分类器对未知标签的数据进行预测。

文本分类指的是计算机通过算法对输入的文本按照一定的类目体系进行自动化归类的过程。该能力致力于实现一种通用的文本分类脚本，调用方法简单，使之针对不同领域的标注数据，通过简单的参数调整，可以实现良好的分类准确率。

首先收集相关领域语料，通过人工标注或者其他方式得到带有标签的训练数据，再通过数据清洗和预处理、分词、去停用词、特征组合与选择、算法模型构建、模型训练、模型保存，最终得到属于该领域相关的文本分类模型。整体流程如下图所示：

输入：将通过人工或者其他方式得到的标注数据集以格式化文件形式输入。

输出：将训练好得到的网络模型及参数以格式化文件形式保存。

将待分类数据以格式化文件形式输入，再通过批量数据清洗和预处理、分词、去停用词等，将文本处理成模型所需要的形式，加载模型网络及参数文件，最后进行预测，得到处理文本的类别信息。整体流程如下图所示：

输入：待分类文本以格式化文件形式输入。

输出：以格式化形式输出待分类文本以及对应的类别信息。