如何从视频聊天软件源码下手,解决敏感词屏蔽问题

如何从视频聊天软件源码下手,解决敏感词屏蔽问题

视频聊天平台鱼龙混杂,用户素质良莠不齐,时常会出现用户名中出现的不雅字符、聊天室内出现不和谐文字的情况,因此在用户每次发言时,视频聊天软件源码都会自动对其文字进行验证,通过匹配“脏字库”中的固定词句,屏蔽掉大部分脏字,具体做法如下:

一、整理一份“违禁词语”,并以数组的格式保存下来,以备后期导入。市面上也有整理好的脏字库数据组,可以直接拿来修改使用。

二、在用户每次发言后,进入快速的系统审核阶段,将用户发言与写入视频聊天软件源码中的违禁词进行对比,将违禁词转化为乱码符号。

三、对比结束后,用户发言才可发送出来,或告知用户“有违禁词禁止发送”

在最开始,人们常用正则表达式进行文字匹配,筛选出关键词进行屏蔽,但那样一来效率太慢,二来无法处理同音字情况,不是最好的解决方式,现在我们可以用更好地方式解决这一问题:通过特征匹配,判断该文本与视频聊天软件源码中敏感词的相似度。
1、第一种方式是,以某段“距离”为单位,将文本与违禁词库进行比对,而不是精准比对,这样做的好处是,在用户发布违禁词时,将违禁词里掺杂空格、或者将违禁词倒着写的情况,很容易被筛选出来。
2、第二种方式是特征匹配,形近字、音近字、简转繁、加空格等进一步精细筛查违禁词

当然,现在技术已经不单单有针对文本的屏蔽机制了,更重要的语音识别和视频识别技术也已经相对成熟,视频聊天软件源码可以接入相关SDK,通过视频截图和图像识别来识别肤色、识别人体特征、识别人的肢体暴露百分比、识别人物动作,有也可以通过语音转文字识别、音频关键字识别和弹幕监控,进一步识别不当内容。相信在未来,视频聊天软件源码的敏感词屏蔽功能会越做越好。

文章为原创,转载请注明出处及作者。

来源:weixin_mlmcha

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2019年11月1日
下一篇 2019年11月1日

相关推荐