人工智能项目法律尽职调查应注意事项

                                                吴国平  北京市隆安律师事务所

 

与传统产业的法律尽职调查不同,很多初创期人工智能项目的团队不足10人,没有不动产、没有商标、没有专利,仅有的程序文件还未进行软件著作权登记,所以对律师团队的专业性提出了更高的要求。从商业角度来讲,任何一个革命性的技术或者系统,其商业价值都是难以衡量的,因此AI项目可能意味着巨额的回报,也可能成为随时破裂的泡沫。如何在投资人决策中增加律师的话语权,这是所有法律人应该深入学习的问题,现根据已有的经验,总结在AI项目中律师尽职调查应注意的问题(因知识产权保护问题,仅显示部分章节)。

 

一、AI项目与传统软件程序的差异

 

   以识别一盆花的种类作为示例,传统软件程序首先将花朵的特征建议模型,例如共计20个变量来确定花朵的特征,然后需要将已知的花朵特征按照上述变量来进行存储,形成一个庞大的数据库,而后将这20个特征的组合同数据库里的所有数据进行一一对比,如果不一致,则对比下一组数据,程序依此循环,直到找到匹配的数据,则屏幕输出数据库里花朵的名字。上述表述的就是典型的传统软件程序。

 

AI项目的处理思维与上述的传统程序完全不同,人工智能的程序处理是模仿人的学习过程,如下图示例,如果将人的手臂换成机器手臂,则不必计算前方蜡烛的距离,也不必计算马达的通电时间(决定甩鞭的力度)、机器臂长度、鞭子的初始位置,只需要随机取两组随机变量,然后启动马达,记录鞭稍与蜡烛的距离,取较小记录的这一组数字和随机设定的第三组数字的结果进行对比,以此循环,很快就能找到可以击灭蜡烛的数据。上述过程不同于从已有数据库中进行索引的过程,与人类尝试学习的过程一致。

人工智能项目法律尽职调查应注意事项

 

但是,上述示例过于简单,也缺乏商业应用的场景,实践中处理复杂事物,对人类的神经网络进行建模仍然是不可能完成的任务,人类大脑的神经网络仍然是世界上最智能的“东西”,对于象征性思维和抽象逻辑思维仍然无法通过类似数据库检索的形式得到完美的答案,例如开发聊天机器人场景中下面人(标注H)与机器人(标注M)的对话:

 

H:你知道《水浒传》吗/p>

M:知道。

H:你知道《水浒传》里的武松吗/p>

M:知道。

H:你知道武松在景阳冈喝了多少碗酒吗/p>

M:18碗。

 

上面的三个问题,机器人可以很轻松从数据库中检索出问题的答案,至于是文字输出还是语音输出都只是工具的问题,重点是对话可以顺畅地完成,对话继续:

 

H:武松为什么要喝那么多酒/p>

M:#$#^%$&^%*&^%^&*$%$

 

对于人类来讲,一个人喝两瓶白酒意味着“喝高了”,但是对于计算机程序来讲,除非数据库中预设了“喝高了”的字段(我们暂且不分析如何通过逻辑关系表述这一字段),否则计算机是无法理解“喝高了”这一概念,更无法对上面武松喝酒的问题进行检索并给出适合的答案。人类语言交流的特殊性在于,人类生物大脑可以很轻松地捕捉“情景语言”从而理解谈话者通过语言想表达的真正意义,对于上面的问题,人类可能回答诸如酒精度数太低、店小二故意多放空碗为了骗钱或者武松思念哥哥等等,但是,对于计算机程序来讲,输入的数据(上例中“武松为什么要喝那么多酒”)不能由《水浒传》中找到相关的信息,也就无从检索出可能的答案。

 

通过上述几个示例,律师对于AI项目的审查,需要对传统软件项目与AI项目进行区分,防止“穿上马甲”以新概念骗取投资人的情况发生。当然还有另外一种骗局,即将伪装成人工智能的部分以人工代替,某公司声称开发的AI平台能够创建、操作和更新维护数字产品,通过他们的BuilderCare 和 CloudOps等产品,任何人都能够在 AI 辅助下构建定制数字产品,比如 App 或网站,并保持必要更新,在此过程中,可以节省大量的程序员工作,相对传统软件的开发程序可以节省超过60%的成本。该项目成功获得了诸多投资公司的资金,但是因为内部人员纠纷而被披露原来所谓的AI项目都是人工完成的。上述骗局还出现在聊天机器人、人工应答项目、同声传译等项目中。

 

 当然,这并无意味着律师对项目真实性的审查需要细化到审查算法的层面,实践中项目方将算法等实现过程视为高度机密,披露资料里可能仅仅表述为“优化后的决策森林回归算法”。这为律师的尽调工作提出了更高的要求,需要对尽职调查所涉及行业有充分的认识,并且具有一定的计算机行业背景,否则可能无法展开实质性的工作。                                                     

 

二、AI项目基础数据来源合法性的审查

 

基于不同的应用场景,不同的AI项目对基础数据的需求量不同。当然,有时候基础数据来源不足也是限制AI项目的重要瓶颈,如果仅仅通过网络爬虫方式取得相关数据,如何对抓取的数据进行分类、标签也是成本极高的工作,更何况有的医疗项目需要获取的是病人的病历。有研究数据表明,96%的AI项目开发者都遇到了训练质量和基础数据数量相关的问题,并且大多数项目需要获取超过 100,000 个基础数据样本才能表现良好。尽管采用贝叶斯线性回归算法可以有效解决样本数量不足的问题,但是算法的选取仍然应该以效能为第一因素。

 

人类可以轻松地识别猫与虎的照片,但是对于计算机程序,这是十分困难的问题,就现有技术来讲,甚至识别猫本身就是很困难的,例如一个卷曲身体或者部分被遮挡的猫,更不用说识别家猫和野猫了(严格来讲这不是生物学的分类,很难通过程序建模)。如下示例,人类可以一眼就分辨出哪一张图片是喝酒,但是对于计算机来讲,如何精确识别、分辨仍然是十分艰巨的任务。

 

 

人工智能项目法律尽职调查应注意事项

 

某个AI项目的视觉识别系统是以网络抓取的图片作为程序算法的基础训练数据,这项工作并不需要很复杂的技术,服务器和爬虫软件即可完成,最终项目组由网络抓取了近十亿张图片,通过大量的人工分类并耗费了大量的存储资源,最终形成了2万多个分类数据库,在此之后,项目组通过神经网络算法完成了“机器学习”,最终实现了“计算机视觉”。在此过程中,律师应当对基础数据获取过程的合法性进行审查,(2017)京0108刑初2384号判决书作为司法实践中对数据抓取定性的重要案例,法官认为被告人在数据抓取的过程中使用伪造device_id绕过服务器的身份校验,使用伪造UA及IP绕过服务器的访问频率限制等行为构成非法获取计算机信息系统数据罪,尽管该案判决后争议较多,法官事后也专门刊文进行说明,但是法学与计算机科学对交叉领域有着不同认识,会导致当事人额外的风险。对此,尽职调查律师应当额外注意。首先需要根据项目具体使用的爬虫工具制定具体的律师调查方案,例如以C++编写的DataparkSearch、HTTrack、ICDL Crawler或者以Java编写的YaCy、WebSPHINX、WebLech等,有的工具可以直接将抓取内容保存为数据库优化格式便于以后索引,有的则力求保存网站结构和页面内容,因为程序员对抓取工具的不同菜单设置,可能导致律师无法还原数据抓取时所采用的设置,如果抓取工具提供了日志功能,则有助于律师进行审查。

 

律师必须进行审查的工作还包括对数据标签化所花费时间的合理性,抓取的数据存在重复化、无标签的特点,该类工作大多由人工完成,该项工作花费大量的时间。当事人为了吸引投资人有可能刻意夸大基础数据的数量级,相应的标签化时间也会被加大,如果此间存在不合理的情形,则律师应当对投资人进行提示。

 

该项律师审查可能会面临另外一个挑战,即当事人可能会提出标签化数据系由第三方购买,确有国外的机构提供标签化数据,国内也有公司从事该项业务,对此律师应当对购买协议、付款时间、数据传送时间、数据存储位置逐一进行审查,必要时应当向出售方进行核对。

 

获取基础数据另外一个重要的问题是著作权风险问题,以爬虫抓取为获得方式的项目都面临无法获得著作权人授权的问题,即使由第三方购买标签数据,这也是无法绕过的问题。但是因为AI项目对基础数据的使用都是非公开的方式进行的,因此由举证责任判断整体民事赔偿的风险较小,但是因为AI项目获取的基础数据是如此巨大,律师应当针对项目的具体实施过程为投资人评估行政处罚和刑事责任(侵犯著作权罪),这种风险在内部人员纠纷中很容易被披露或者被检举告发。

 

当然,我们还需要对行业性AI项目的数据获取进行分析,与视觉系统的数据获取、挖掘不同,行业性AI项目基础数据无法通过爬虫方式进行公开获取,只能通过行业内机构并通过行业内人员的协助进行获取。

 

糖尿病性视网膜病变糖尿病的主要并发症之一,也是导致失明最快的原因,2017全球约有4.25亿糖尿病患者(国际糖尿病联盟公布数据)面临病变风险。检测糖尿病眼病的最常见方法之一是让专科医生通过眼底灯和裂隙灯检查眼严查眼部血管和视网膜,以此确定是否有疾病以及严重程度。AI项目通能过对眼底图片的RGB色彩模型以及HSI色彩模型,最后对获得的反射图像进行贝叶斯变化检测,从而能够通过这个AI项目代替医生检查视网膜照片病变的迹象,至少可以帮助医生筛选更多的患者。为了达到较高的灵敏度和特异性,该项目需要至少十万张眼底影像进行训练,同时上述数据还需要有专业的眼科医生进行分类(标签化)。

 

国家卫生健康委员会曾就医疗数据的获取、存储、使用出具管理办法,将医疗数据的管理提升到个人信息安全、群众生命安全、国家战略安全的高度,事实上,AI项目的数据训练无需患者的姓名、联系方式等个人信息(性别和年龄可能会成为采集变量),但是基于相关规定并没有明确医疗数据AI项目应用的操作办法,因此律师对此进行审查时应当综合项目方与医疗机构的具体合作模式进行审查。

 

三、人工智能项目的伦理审查

(因知识产权保护的原因,相关内容未予显示,欲了解更多内容请联系作者)

 

四、AI项目创始人的背景审查

五、以Python为例审查AI项目的开发工具

六、AI项目的反垄断法适用风险评估

七、项目方已有业绩的真实性核查

来源:吴国平律师

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年3月26日
下一篇 2020年3月26日

相关推荐