敏感词软件使用说明.md

python version
支持系统

敏感词识别软件使用说明

支持windows/linux平台,包括jetson

支持CPU/GPU进行模型预测

1.软件概述

本软件是一款敏感词识别工具,包含离线的语音识别和在线的语音识别功能。可以通过部署在离线设备上对使用者进行实时离线语音识别,如果触发敏感词列表将通过语音报警。

用户可以自定义敏感词列表,并且通过微调训练模型来提升敏感词识别的准确率。

离线识别使用阿里云大模型Paraformer,支持CPU和GPU进行模型预测,并且可以通过GPU训练来微调模型以提高识别效果。在线语音识别使用腾讯云实时语音识别

2.硬件配置

  1. NVIDIA JETSON ORIN NANO 8GB
  2. 8寸触摸屏
  3. 御葵U780麦克风
  4. USB声卡

3.离线语音识别

3.1 识别过程

  1. 设备首次启动需要开启识别服务端程序-桌面-server

    tu.png

  2. 服务端启动成功

后端识别服务.png

  1. 启动主程序-桌面-sensitive-默认离线识别界面

离线识别界面

  1. 识别前请先确认-右上角设置-麦克风选择录音设备选择正确

  2. 点击开始识别

  3. 等待模型加载文件并开始录音。

  4. 当触发敏感词列表时,会触发报警声音。

  5. 再次点击暂停识别按钮后,录音将会停止。

4. 在线语音识别

4.1 界面介绍

在线识别

在线语音识别界面包含录音文件识别和麦克风实时识别功能。

4.2 录音文件识别

通过选择文件路径【录音文件不能大于5MB】,点击[上传识别]。程序会自动上传并返回录音结果。如果输出结果包含敏感词,将触发报警,输出信息将在打印框打印。

4.3 麦克风实时识别

设置录音时间长度,点击开始识别。输出信息将在打印框打印。识别过程中如果包含敏感词将触发报警。

4.3.1 热词和热词增强功能

  • 修改热词文件,点击更新热词表,将自动上传到腾讯云端存储。
  • 选中开启热词复选框,即可开启热词功能。

4.3.2 自模型训练

  • 自模型文件需要手动上传到腾讯云后台
  • 选中开启热词复选框,即可开启热词功能。

5.模型微调

5.1 界面介绍

模型微调.png

5.2 微调训练过程

5.2.1 语音数据采集

  • 设置指定微调词,设定录音次数并点击开始录音
  • 根据提示在规定时间完成微调词录音
  • 录音文件保存位置\home\user\project\gpu\sensitive\server\dataset\audio

训练数据.png

5.2.2 微调训练

点击桌面图标-train

tu.png

开始微调训练

模型训练.png

训练过程

训练过程.png

等待10分钟左右,模型训练完毕

模型微调完毕.png

微调模型保存路径\home\user\project\gpu\sensitive\model

6.配置文件

6.1 离线配置

离线配置.png

  • 报警声音文件路径选择【文件必须是.mp3后缀】-点击报警按钮可以播放报警音
  • 离线配置包含单句录制时间和上一句持续长度。如果敏感词过长可以适当调整。
  • 模型选择-可以通过选择自己训练的微调模型来提升识别准确率
  • 打开调试模式可以看到实时的语音识别结果,默认关闭
  • 敏感词文件路径选择【文件必须是.txt后缀】
  • 设置完务必保存配置

6.2 默认敏感词文件

负面情感词汇:https://github.com/d02513e0-b64f-4a31-9181-42f3aff94dda

自杀倾向:https://github.com/Ckend/suicide-detect-svm

6.3 腾讯云配置

更多关于腾讯云配置的信息请参考:腾讯云配置详情

以上是本软件的使用说明,如有任何问题,请联系我们的技术支持团队。