信贷风控四:高校地址自动化识别

信贷风控四:高校地址自动化识别

    • 一、业务背景
    • 二、解决方案
    • 三、完善补充

一、业务背景

恶意投诉一直是信贷从业人员面临的一个棘手问题,总有那么一些客户,或是受不良中介引导,或是自己没有道德底线,在信贷平台借到款之后,抓住一些可利用的漏洞,倒打一耙,把信贷平台投诉到监管平台上。而越是正规的信贷平台,越容易在面对监管投诉时表现弱势,导致信贷平台既失名又失利。面对这种情况,信贷平台能做的一般就是完善流程,留存证据。
大学生投诉,是我们面临的恶意投诉中的一种,有些客户,在自己还在就读高校的时候,钻了空子,在信贷平台上借到了一笔借款,一段时间以后,燃眉之急解决了,就借着平台给学生贷款这个违规操作,把平台投诉给监管了,以求白嫖这笔借款。
为了在业务中防控大学生投诉这种情况,我们对一批以学生身份投诉的案例进行了分析,发现这些投诉客户具有两个普遍特征,一是年龄普遍偏小,主要分布在22-25岁,最大的不超过28岁,二是很大一部分客户的人行征信住址或是公司填写的是高校,从这两个线索出发,我们就可以在前端风控侧做一些规则设计,结合年龄和人行征信住址,把疑似高校的客户都拦截掉,以期在一定程度上解决给学生客户放款的漏洞。于是有了这篇博客,如何做一个规则接口,识别一个地址或公司名是否为高校。
当然这样一个需求可以借助外部厂商解决,像是各种地图服务,或者直接查学籍数据,但这样一是需要费用较高,二是违背了自主化风控的初衷,所以有了下面这个自主化的探索方案。这个方案目前还不能做到百分百准确,但能做到大概率准确,在测试的几千条地址转化结果上面,准确率可以达到94%左右。这个高校识别方案,不仅可以用作贷前风控拦截的接口,也可以用于基于地址数据的数据挖掘方面。

二、解决方案

识别地址是否为高校的基本逻辑是使用正则表达式做关键词识别,在识别准入的基础上,做定向排除。
准入的关键词分为三类:

  1. “大学”、“高校”、“学院”等这类高校的关键字;
  2. “本科”、“研究生”、“学生宿舍”等学生类的关键词;
  3. 各个大学的简称,像“哈工大”、“陕西师大”、“西安交大”等。

在准入的基础上,做如下关键词的定向排除:

  1. 附属中学、附属小学等;
  2. 职工宿舍、专家楼、家属楼等;
  3. 对面、对过、旁边等方位类的关键词;
  4. 大学路、学院路、华中大街、中南大厦等街道、楼宇名;
  5. 某某大学店等分店名称;
  6. 大学村、师范镇等村镇地名;
  7. 保卫处、食堂、教务处等办公地点;
  8. 进修学校、老年大学、成人大学等非学生类学校等

基于以上逻辑,使用python实现的代码如下,供大家参考:

三、完善补充

以上逻辑还有可以补充完善的一部分,就是只写高校地址,不明确写出某某高校的情况,比如“”汉口路22号”,虽然没有明确出现大学类字样,但它就是南京大学的地址。所以我们可以在准入规则里面加入一条,所有高校的详细地址信息。对于明确指明某某路某某号的大学地址,我们同样可以用正则表达式的形式写出来。比如北京大学的详细地址是“北京市海淀区颐和园路5号”,因为我们面临的地址大多是客户手写的,导致写法比较随意,地址中区、市部分可写可不写,但同时,如果我们去掉市、区信息,只匹配某路某号,又容易造成歧义,毕竟像南京路、上海路这样的路名,全国很多城市都有,所以,为了既保证一定的精准度,又具有一定的普遍性,我们可以把上述地址的匹配逻辑写成如下的正则形式:
‘.*((北京(市)海淀区)颐和园路5号).*’
把地址信息的正则逻辑加到准入规则中,可以一定程度提高高校识别规则的覆盖率,但同时,这样的正则规则较长,会拖慢判断响应时间,如果做线下特征衍生,问题不大;做实时接口判断,就要考虑取舍。(全国2700多所高校的详细地址数据,可私信作者索取)

总之,本文只是从实际业务需求出发,提供了一个解决高校地址识别的思路,虽然不完善,但能够解决大部分问题,如二八原则,花费了20%的精力,能够解决80%的问题,如果想要做到100%,就需要再进一步花费80%的精力才能做到,性价比不高。大家可以在这个思路的基础上继续做完善补充,以期识别准确度能够更高。或者有任何更好的解决方案,欢迎大家讨论。

来源:白白的一团团

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年10月5日
下一篇 2022年10月5日

相关推荐