如何从视频聊天软件源码下手，解决敏感词屏蔽问题

视频聊天平台鱼龙混杂，用户素质良莠不齐，时常会出现用户名中出现的不雅字符、聊天室内出现不和谐文字的情况，因此在用户每次发言时，视频聊天软件源码都会自动对其文字进行验证，通过匹配“脏字库”中的固定词句，屏蔽掉大部分脏字，具体做法如下：

一、整理一份“违禁词语”，并以数组的格式保存下来，以备后期导入。市面上也有整理好的脏字库数据组，可以直接拿来修改使用。

二、在用户每次发言后，进入快速的系统审核阶段，将用户发言与写入视频聊天软件源码中的违禁词进行对比，将违禁词转化为乱码符号。

三、对比结束后，用户发言才可发送出来，或告知用户“有违禁词禁止发送”

在最开始，人们常用正则表达式进行文字匹配，筛选出关键词进行屏蔽，但那样一来效率太慢，二来无法处理同音字情况，不是最好的解决方式，现在我们可以用更好地方式解决这一问题：通过特征匹配，判断该文本与视频聊天软件源码中敏感词的相似度。
1、第一种方式是，以某段“距离”为单位，将文本与违禁词库进行比对，而不是精准比对，这样做的好处是，在用户发布违禁词时，将违禁词里掺杂空格、或者将违禁词倒着写的情况，很容易被筛选出来。
2、第二种方式是特征匹配，形近字、音近字、简转繁、加空格等进一步精细筛查违禁词

当然，现在技术已经不单单有针对文本的屏蔽机制了，更重要的语音识别和视频识别技术也已经相对成熟，视频聊天软件源码可以接入相关SDK，通过视频截图和图像识别来识别肤色、识别人体特征、识别人的肢体暴露百分比、识别人物动作，有也可以通过语音转文字识别、音频关键字识别和弹幕监控，进一步识别不当内容。相信在未来，视频聊天软件源码的敏感词屏蔽功能会越做越好。

文章为原创，转载请注明出处及作者。

来源：weixin_mlmcha

声明：本站部分文章及图片转载于互联网，内容版权归原作者所有，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

如何从视频聊天软件源码下手，解决敏感词屏蔽问题

相关推荐