敏感词软件使用说明.md

yyh2024-07-102024-07-10

python version
支持系统

敏感词识别软件使用说明

支持windows/linux平台，包括jetson

支持CPU/GPU进行模型预测

1.软件概述

本软件是一款敏感词识别工具，包含离线的语音识别和在线的语音识别功能。可以通过部署在离线设备上对使用者进行实时离线语音识别，如果触发敏感词列表将通过语音报警。

用户可以自定义敏感词列表,并且通过微调训练模型来提升敏感词识别的准确率。

离线识别使用阿里云大模型Paraformer，支持CPU和GPU进行模型预测，并且可以通过GPU训练来微调模型以提高识别效果。在线语音识别使用腾讯云实时语音识别。

2.硬件配置

NVIDIA JETSON ORIN NANO 8GB
8寸触摸屏
御葵U780麦克风
USB声卡

3.离线语音识别

3.1 识别过程

设备首次启动需要开启识别服务端程序-桌面-server
服务端启动成功

后端识别服务.png

启动主程序-桌面-sensitive-默认离线识别界面

离线识别界面

识别前请先确认-右上角设置-麦克风选择录音设备选择正确
点击开始识别
等待模型加载文件并开始录音。
当触发敏感词列表时，会触发报警声音。
再次点击暂停识别按钮后，录音将会停止。

4. 在线语音识别

4.1 界面介绍

在线识别

在线语音识别界面包含录音文件识别和麦克风实时识别功能。

4.2 录音文件识别

通过选择文件路径【录音文件不能大于5MB】，点击[上传识别]。程序会自动上传并返回录音结果。如果输出结果包含敏感词，将触发报警，输出信息将在打印框打印。

4.3 麦克风实时识别

设置录音时间长度，点击开始识别。输出信息将在打印框打印。识别过程中如果包含敏感词将触发报警。

4.3.1 热词和热词增强功能

修改热词文件，点击更新热词表，将自动上传到腾讯云端存储。
选中开启热词复选框，即可开启热词功能。

4.3.2 自模型训练

自模型文件需要手动上传到腾讯云后台
选中开启热词复选框，即可开启热词功能。

5.模型微调

5.1 界面介绍

模型微调.png

5.2 微调训练过程

5.2.1 语音数据采集

设置指定微调词，设定录音次数并点击开始录音
根据提示在规定时间完成微调词录音
录音文件保存位置\home\user\project\gpu\sensitive\server\dataset\audio

训练数据.png

5.2.2 微调训练

点击桌面图标-train

开始微调训练

模型训练.png

训练过程

训练过程.png

等待10分钟左右，模型训练完毕

模型微调完毕.png

微调模型保存路径\home\user\project\gpu\sensitive\model

6.配置文件

6.1 离线配置

离线配置.png

报警声音文件路径选择【文件必须是.mp3后缀】-点击报警按钮可以播放报警音
离线配置包含单句录制时间和上一句持续长度。如果敏感词过长可以适当调整。
模型选择-可以通过选择自己训练的微调模型来提升识别准确率
打开调试模式可以看到实时的语音识别结果，默认关闭
敏感词文件路径选择【文件必须是.txt后缀】
设置完务必保存配置

6.2 默认敏感词文件

负面情感词汇:https://github.com/d02513e0-b64f-4a31-9181-42f3aff94dda

自杀倾向:https://github.com/Ckend/suicide-detect-svm

6.3 腾讯云配置

更多关于腾讯云配置的信息请参考：腾讯云配置详情

以上是本软件的使用说明，如有任何问题，请联系我们的技术支持团队。