中国:公安采集声纹特征恐侵犯隐私 警方与人工智能巨头合作触及法律灰色地带

人权观察2017年10月23日

(纽约,2017年10月12日)-人权观察今天表示,中国政府正在采集公民“声纹”样本以建立全国声纹数据库。

人权观察指出,有关当局正与生产全国百分之80语音识别技术的科大讯飞公司(Iflytek)合作,开发一种试验性监控系统,可以从电话通话中自动识别目标人声。人权观察已于2017年8月2日致函科大讯飞公司,查询该公司与公安部的商业合作关系,该公司网站上公布的一种自动人声识别及监视系统,以及该公司是否订有人权政策。科大讯飞迄未回复。

“中国政府一直在采集千千万万人民的声纹特征,但整个计划缺乏透明性,也没有法律规范采集目标或相关信息的用途,”人权观察中国部主任索菲・理查森(Sophie Richardson)说。“在一个长久以来监控权力不受制衡,异见人士屡受报复的国家,这样的数据太容易被有关当局滥用。”

近年来,为了执行大量监控和社会控制,中国政府不断加强利用生物特征技术──包括建构大规模生物特征数据库。相较于公安机关其他生物数据库,声纹数据库显然尚在起步,样本数量不多。截至2015年,公安机关已在主要试点地区之一的安徽省采集到7万份人声样本。

采集人声生物特征是中国政府建构“多模态”个人生物特征图像,采集更多公民数据的行动之一。此一人声生物特征数据将与警方数据库中的居民身份证号码联结,进而可联结其他生物特征和个人档案信息,包括民族、住址、甚至酒店订房纪录。

中国民众几乎不可能清除这些个人信息或质疑官方采集个人信息的行为,也不能因政府监控而获得赔偿。和采集其他生物特征如指纹或DNA样本不同,个人根本察觉不到自己的声纹已被采集,也难以知道自己是否正被监听。

官方招标文件警方报告显示,公安机关采集声纹时,将同时收集其他生物特征,包括指纹、掌纹、人像、尿液和DNA样本,做到信息采集“标准化”、“一体化”。

只要公安人员认有“违法犯罪”嫌疑,包括行为不检,就可以采集任何人的生物特征。例如,据安徽省某县级公安机关提报,有三名女性因被怀疑卖淫(其中两人并涉行政违规)而被采集声纹

并无任何公开的官方政策可以说明创建或使用声纹数据库的理由,但据领导相关技术开发的学者在学术论文中指出,其目的是协助从犯罪现场蒐集到的语音材料中指认出说话人的身分。称为自动话者识别(ASR)系统的人工智能专项研究正在进行中,可望加速声纹比对程序。

官媒报导宣称,自动话者识别系统已通过声纹鉴定侦破多起电信诈骗、毒品贩运、绑架勒赎和黑函恐吓等案件。相关报导指出,这种技术也可以应用在反恐和“维稳”(当局有时以此为借口打压和平异见人士)。

中国政府正在编织一张日益严密的监控网,有越来越多的方式可以抓到普通公民批评政府或为社会改革进行组织动员。维权人士和网民只因在社交媒体──如微信──等通讯工具上和平地表达言论,就被定罪判刑的案例原本就不少见。

现在政府又规定购买手机SIM卡等各项服务都必须经过“实名登记”,匿名和隐私空间更加狭窄。有些维权人士就因为搭乘火车和其他公共交通工具都必须“实名登记”而被公安追踪捕获。当局还在一些维权人士的住家门口安装闭路电视摄像头,既为监控,也是恐吓。

政府采集或使用生物特征数据并不必然违法,有时它确实是合理合法的办案手段。但若要符合中国已签署尚未批准的《公民及政治权利国际公约》所规定的隐私权国际标准,政府在每一次采集、保留和使用生物特征时,都必须有充分的法律依据,范围尽量缩小,对所要满足的正当治安目的具有必要性,并合乎比例原则。

鉴于生物特征数据的敏感性,政府官员应当避免采集或利用这种信息,除非对侦办重大犯罪确有必要,而且不应用于轻微犯罪或行政目的,例如追踪流动人口。采集和使用都应该仅限于涉案人员,而不包括没有具体涉案的广泛人口。采集、使用和存储均绝对不应基于一个人的性别、性倾向、种族、族群、宗教、政治或其他观点。个人应有权利知悉政府握有其何种生物特征数据。

科技业者也负有人权义务,应确保其产品和服务不被用于人权侵害,包括侵犯隐私和公正审判权利。

“中国当局的监控工具不断推陈出新,隐私权却远远滞后,”理查森说。“当局应立即停止采集高度敏感的生物特征数据,直到建立明确──且可靠──的法律保障机制。”

声纹数据库和说话人自动识别

2012年,公安部开始建设全国声纹数据库,并以安徽省为试点省份之一。

2014年,安徽省公安厅发文要求加快数据库建设。由政府招标文件可见,该省各地公安局此后陆续添购声纹采集终端设备

2016年,新疆公安厅下发《关于全面开展三维人像、声纹、DNA指纹生物信息采集系统建设相关工作的通知》后,这个住着1,100万维吾尔族的自治区也开始大量采购声纹采集设施。据基层公安派出所报导,第一线警员每个月必须完成一定的生物特征采集指标。

此外,据公安机关和媒体报导,广东省福建省安溪县、湖北省武汉市和江苏省南京市公安机关也都建有声纹数据库。

人权观察并发现,普通公民的声纹也遭到采集。例如:

  • 安徽省宣城市某公安机关2017年4月27日报告指出,为“有效掌握流动人口实际情况”,将采集辖区内农民工的声纹、指纹和血样;
  • 新疆自治区博乐市暂住人口管理办公室2016年度报告书指出,为“加大流动人口信息采集”,该单位已添购14套声纹采集系统;
  • 根据河南省郑州市公安机关分别于2017年4月和5月发布的两则信息,该市已对维吾尔流动人口的声纹和其他生物特征进行全面采集;
  • 据人权观察早先纪录,新疆居民申办护照时须由公安机采集生物特征,包括声纹样本。

2017年2月《澎湃新闻网》曾报导──该文在国内已被删除,但仍可在海外《中国数字时代》网站浏览──安徽省公安厅正在实验对电话通讯进行实时监控,即利用自动话者识别系统自动找出目标人员的声纹并通知公安人员:

 “安徽淮南的一位女士曾接到一个诈骗电话…电话那头的骗子正一步步指挥她如何进行转账…声纹识别系统根据骗子的声纹给出了预警,接到预警后,公安干警直接掐断了这位女士的电话。”

这项技术,在科大讯飞(Iflytek)以及一家不知名的国内电信服务商协助下与监控系统完成整合。

科大讯飞公司

科大讯飞(Iflytek)公司成立于安徽省,是一家专注发展语音和说话人识别技术的国家级人工智能企业。根据科大讯飞官网,该公司主要成就之一是建成全国第一个“海量语音自动说话人识别监控系统”。其官网指出,该公司已协助公安部建成全国声纹数据库,并且是新疆和安徽公安厅指定的声纹采集系统供应商。该公司和公安部物证鉴定中心合作成立的“智能语音技术公安部重点实验室”,已屡次协助安徽、甘肃、西藏和新疆等地“侦破刑案”。该公司并表示有能力开发可识别藏语、维语等少数民族语言的人工智能系统。

科大讯飞官网并称已开发完成其他与声音有关的应用产品,包括“关键词检测”,可用于“公安”、“国防”等领域。网站并未说明所谓的“关键词”或安全威胁所指为何。根据2013年8月提出的专利申请文件,该公司已开发出一套可以在电话网或互联网上发现“音频文件重复模式”的系统,可被用于“舆情监控”。

 “[这种系统]在信息安全和舆情监控应用中有着非常重要的应用价值,特别是从海量音频数据中自动发现频繁出现的音频片段…对电话类音频数据,利用该技术可以快速发现正在传播的非法电话录音。而对互联网音视频数据,利用该技术可以快速准确地挖掘出目前最流行的音视频片段。”

科大讯飞和清华大学电机系设有联合实验室。清大电机系是居于领先地位的研究机构,在开发电话自动监控的语音和说话人识别技术方面有悠久历史,也是公安部金盾工程(通过科技强化、扩大监控能力的巨型计划)的要角。

科大讯飞也开发出一系列文语转换(text-to-speech)和语音识别的商业性手机应用程序,包括一款专供中国安卓手机使用的语音支援应用软件。该公司表示,该软件用户已达8.9亿人,足以提供海量语音数据集,可用来培训或改善该公司各种用途的语音识别软件,其中可能包括监控功能。

科大讯飞为商业用途收集的个人信息,在何种程度上与公安部分享,不得而知。该公司的客户隐私声明虽然承诺维护保密性,但又说该公司可以“依据相关政府部门的要求”揭露个人信息。中国《网络安全法》要求业者提供未经明确定义的“技术支援”以协助安全机关侦办犯罪,却没有任何条文保护个人隐私免于国家监控。举例而言,科大讯飞若被政府要求提供用户信息,该法并未要求该公司知会用户本人。

2014年全国人大(中国的橡皮图章立法机构)开会期间,科大讯飞董事长刘庆峰以全国人大代表身分敦促当局“尽快利用大数据反恐,加快建设声纹库…保障国家安全。”

自动语音识别系统也有其他国家采用,包括在美国用来监控囚犯对外通话,在澳大利亚用来核对社会服务申请人的身分;西班牙警方则采集了3,500份以上的犯罪前科者语音样本

虽然有些国家尝试为特定用途采集声纹以供指认或核实身分,但这种技术在犯罪防治和监控上的应用仍存在重大困难。自动话者识别系统的精确性受到说话时的状况影响,例如说话者的情绪。

一位不愿具名的语音识别专家向人权观察表示,自动话者识别系统执行实时监控的能力也有其限制:以现有的技术,这种系统在追踪同一个语音目标时,最多只能同时“监听”50条电话线。当这种系统可能将一个语音误认为一个存档声纹,即产生错误识别,而该技术又被用于犯罪侦查与起诉时,其后果可能十分严重,尤其是在刑案定罪率高过百分之99、又缺乏有效救济机制的中国。

各国政府和私人企业同样面临的另一挑战,是如何确保海量生物特征数据库的安全。这种数据库正是网络罪犯的首要目标,他们可能设法侵入取得生物特征,用来进行身份盗窃或诈骗。不同于居民身份证号码或密码,语音、面容或其他生物特征通常难以改变,因此这种数据一旦被盗,一般人可能求助无门或无力自保。

2017年9月27日,在中国北京举行的第六十六届国际刑警组织大会期间,面部识别软件科技展示。 © 2017 路透社

生物特征采集和监听:中国法与国际法观点

中国法律显然限制公安机关只能为侦办具体刑事案件采集生物特征样本。《刑事诉讼法》第130条规定,在刑事侦查过程中,为了“确定被害人、犯罪嫌疑人的某些特征、伤害情况或者生理状态,可以对人身进行检查,可以提取指纹资讯,采集血液、尿液等生物样本。犯罪嫌疑人如果拒绝检查,侦查人员认为必要的时候,可以强制检查。”

但关于生物特征样本可以存储多久,可以如何分享、使用,或如何对其采集或使用提出申诉,并无任何法律指导原则或限制。虽然公安部对于声纹采集订有行政或技术方面的部门内规,但内容大多并未公开。

对流动人口的生物特征采集,也常逾越法律规范。虽然有些省级法规授权地方政府采集流动人口的“基本数据”,但并未明确将生物特征列入应采集数据。

中国现行法也并未授权公安机关为行政违法案件采集个人生物特征数据,尽管这方面的规定可能正在改变中。2017年初,中国政府发布《治安管理处罚法》修订稿,其中新增第112条,授权公安机关为确定违反治安管理的行为人和被侵害人而采集其生物特征。