Appearance
分词 #
1 功能概述 #
对文档进行分词并输出保存分词结果。
2 功能需求 #
将分词脚本封装成函数,转化为通用能力,方便后续相关功能的快捷导入与使用。所谓通用能力,即指在一定程度上适用于具有不同数量标签的文档,可以通过参数,指定目标数据位置,可以根据数值型索引或字符型标签值对相应位置处数据进行分词操作。
3 处理流程 #
对文档进行分词时,首先准备好输入数据,将数据读入程序后,根据程序要求放入参数以控制程序的运行,输出并保存分词结果文档。
4 输入输出 #
任务针对功能主要为对输入文本数据进行“分词”处理,该功能需要封装为通用功能,分词对象一般为前期经过处理的文本数据中的某段文字,对于输入数据而言,根据程序需要指定其输入格式。
在对输入数据进行分词之后,通常需要保存分词结果。与输入数据相对应的,分词程序需要对分词结果进行输出并保存为指定文档。