大数据与经营第二周
大数据经营第一组第二周
隐私与风险
无处不在的监控与隐私威胁
在1989年柏林墙倒塌前的近四十年间, 民主德国国家安全局雇佣了十万左右的全职间谍, 用来监视民众的一举一动。德国统一20年之后,更多的个人信息被采集和存储了下来。步入互联网时代后,各大公司都在使用数据来跟踪我们的行为。在进入大数据时代后,随着存储成本继续暴跌而分析工具越来越先进,采集和存储数据的数量和规模将爆发式地增长。
事实上,不是所有的数据都包含了个人信息。不管是传感器从炼油厂采集的数据、来自工厂的机器数据、机场的气象数据,还是沙井盖爆炸数据都不包含个人信息。英国石油公司和纽约爱迪生联合电力公司不需要(也不想要)个人信息,就能分析挖掘出他们所需要的数据价值。这方面的数据分析并不威胁个人隐私。但是,目前我们所能接触到的公司,往往采集的数据都包含有个人信息。比如说,能源使用情况能暴露一个人的日常习惯和非法行为,商品购买记录能暴露一个人的经济条件和购买偏好。
随着大数据分析工具的发展,数据滥用的风险激增。大数据分析的从业者轻松地看到数据背后的巨大价值,进而刺激他们不断扩展对个人数据的采集和利用。在这种背景下,预测和判断人类的潜在行为成为可能,但这也对公平公正和自由意志构成了威胁。应用得当,大数据会是我们合理决策过程中的有力武器;倘若运用不当,它就可能会变成权贵用来镇压民众的工具,轻则伤害顾客和员工的利益,重则损害公民的人身安全。我们所冒的风险比想象中还要大。
对于隐私来说,大数据还会带来更多的威胁,毕竟,大数据的核心思想就是用规模剧增来改变现状。虽然采集个人数据的行为在互联网时代已经存在,但大数据时代数据采集的规模更大、成本更低,分析工具更为强大。大数据不仅威胁个人隐私,还通过大量的交叉分析,进一步深入到个人的生活细节中,甚至能够推断出我们的行为模式。
隐私保护措施的失效
传统隐私保护的“告知与许可”原则在大数据时代变得无效,因为大部分数据在收集时的用途无法预见,无法预先征得用户同意。公司无法告知数据的潜在创新性用途,用户也无法同意尚未知道的用途,导致告知与许可失去了实质意义。同时,想在大数据时代中用技术方法来保护隐私也是天方夜谭。如果所有人的信息本来都已经在数据库里,那么有意识地避免某些信息就是此地无银三百两。
大数据的核心价值不仅来自其原始用途,更源于对数据的二次利用。公司往往在未征得用户同意的情况下,对个人数据进行深度挖掘和再利用。这种二次利用颠覆了传统的隐私保护法律框架,使得数据使用的合法性和用户知情权受到挑战。
虽然数据匿名化曾被认为是保护隐私的一种有效方式,但在大数据时代,通过交叉分析不同数据集,可以轻松反匿名化。例如,美国在线(AOL)发布匿名化的搜索记录后,还是被揭示出用户的真实身份。奈飞公司的“Netflix Prize”事件中,匿名用户也通过数据关联被识别。大数据使得单纯的匿名化措施难以保护隐私。
在大数据时代,不管是告知与许可、模糊化还是匿名化,这三大隐私保护策略都失效了。如今很多用户都觉得自己的隐私已经受到了威胁,当大数据变得更为普遍的时候,情况将更加不堪设想。
预测与惩罚:基于数据的社会控制
随着大数据技术的应用,很多美国城市如洛杉矶和里士满利用数据预测犯罪行为,从而提前加强对高风险群体的监控。这种预防性措施虽能降低犯罪发生的可能性,但也带来了伦理和法律上的争议。如果我们可以通过数据预测某人的犯罪行为,是否应当对其进行未犯罪前的处罚?这种逻辑似乎是为了通过惩罚威慑未来的犯罪行为,然而这种做法直接挑战了无罪推定的法律原则,并侵犯了个人的自由意志。基于大数据的预测可能会将个人的行为标签化,将人们置于一个不由自主的社会框架中,剥夺了其选择自由,甚至可能让他们在无形中被引导至特定行为路径。这种现象不仅是对个人自由的剥夺,更可能加剧社会不公,尤其是在执法和司法体系中。
数据独裁与过度依赖
过度依赖数据的决策方式存在巨大隐患。历史上,过分依赖数据曾导致重大决策失误。例如,在越南战争期间,美国政府依赖战场上的死亡人数数据作为衡量战争进展的指标,忽视了数据背后的偏差。为了达成目标,基层军官虚报死亡数字,最终导致整个战争策略的失误。同样,在现代社会中,科技公司如谷歌在招聘和产品设计中也面临类似的问题。通过数据做出的决策可能会忽略创造力和人类经验的价值,甚至束缚了创新的空间。数据应当是辅助决策的工具,而非唯一依据。对数据的迷信可能让我们忽视了复杂现实中的其他重要因素,如人性、文化与社会背景等。
相关性与因果关系的误解
大数据的分析多建立在相关性基础上,而非因果关系。将相关性作为判断个人行为或责任的依据,可能导致误判和不公。例如,某人频繁搜索流感相关信息并不意味着他感染了流感,但大数据分析可能将其错误地与流感传播相关联,导致其遭受不必要的隔离。将这种基于相关性的预测用于评估个人的责任,会带来严重的后果。这不仅会错误地惩罚无辜者,还可能通过错误的推断使决策者忽略了真正的问题来源。因此,大数据应用中的一个关键问题是如何合理处理相关性与因果关系的界限,确保数据分析能够为决策提供正确的指引,而不是制造更多误解。
大数据的伦理挑战与自由的丧失
大数据的强大潜力毋庸置疑,但如果我们盲目依赖它而不加以理性使用,可能会导致社会失控和个人自由的丧失。依赖数据预测和惩罚不仅影响个体自由,更可能引发社会结构的深层次变化,打破现有的社会秩序与公平原则。大数据时代对隐私、透明度和伦理的挑战要求我们重新审视如何平衡技术创新与社会正义之间的关系。我们应避免陷入对数据的盲目崇拜,而是学会合理利用数据,确保其为社会发展和个体福祉服务,而非成为操控社会与个人生活的工具。让数据为我们所用,而不是成为数据的奴隶。
责任与自由并举的信息管理
隐私保护的转变
传统隐私保护模式依赖个人许可,要求数据收集时取得用户的同意。在大数据时代,数据的价值更多体现在二次用途上,无法通过“告知与许可”来有效管理。应转向数据使用者承担责任,要求他们根据数据的使用场景进行风险评估,而不是依赖用户的许可。数据使用者必须承担更多的法律责任,如未妥善评估风险或提供不足的保护措施,将面临处罚。数据使用者的责任只有在有强制力规范的情况下才能确保履行到位。
我们也需要发明并推行新技术方式来促进隐私保护。一个创新途径就是“差别隐私”:故意将数据模糊处理,促使对大数据库的查询不能显示精确的结果,而只有相近的结果。这就使得挖出特定个人与特定数据点的联系变得难以实现并且耗费巨大。
有了大数据,我们就能预测人的行为,有时还能十分准确。这诱使我们依据预测的行为而非实际行为对人们进行评定。身处大数据时代,我们必须拓宽对公正的理解,必须把对个人动因的保护纳入进来。在大数据分析和决策中,必须确保对个人动因的尊重,即评判依据应是个人的真实行为,而不是单纯依赖大数据预测。
监管与评估
在大数据时代,我们需要设立一个不一样的隐私保护模式,这个模式应该更着重于数据使用者为其行为承担责任,而不是将重心放在收集数据之初取得个人同意上。这样一来,使用数据的公司就需要基于其将对个人所造成的影响,对涉及个人数据再利用的行为进行正规评测。未来的隐私保护法应当区分用途,包括不需要或者只需要适当标准化保护的用途。对于一些危险性较大的项目,管理者必须设立规章,规定数据使用者应如何评估风险、如何规避或者减轻潜在伤害。这将激发数据的创新性再利用,同时也确保个人免受无妄之灾。对大数据使用进行正规评测及正确引导,可以为数据使用者带来切实的好处:很多情况下,他们无须再取得个人的明确同意,就可以对个人数据进行二次利用。相反地,数据使用者也要为敷衍了事的评测和不达标准的保护措施承担法律责任,诸如强制执行、罚款甚至刑事处罚。数据使用者的责任只有在有强制力规范的情况下才能确保履行到位。将责任从民众转移到数据使用者很有意义,也存在充分的理由,因为数据使用者比任何人都明白他们想要如何利用数据。
大数据分析往往难以理解,形成“黑盒子”效应,使得预测结果不透明且难以解释。为了防止这些情况的出现,大数据将需要被监测并保持透明度。作者提议设立新的专业群体“算法师”,其职责是确保大数据的公正性和透明性。算法师分为外部和内部两类:
- 外部算法师: 独立实体,作为公正审计员,评估大数据的准确性和有效性。
- 内部算法师: 公司内部监督数据活动,确保公司在使用大数据时的透明性与公正性。
算法师的职责: 评估数据源、算法、预测工具的合理性,确保决策的科学性,减少对个人的潜在伤害。
防止数据垄断
数据之于信息社会就如燃料之于工业革命,是人们进行创新的力量源泉。没有大量鲜活的数据和健全的服务市场,这些创新就实现不了。像19世纪的强盗大亨垄断了铁路和钢铁生产一样,21世纪的大数据企业有可能形成数据垄断,影响市场竞争。因此,政府应借鉴反垄断法的成功经验,通过立法和规范防止数据垄断,确保数据市场的竞争力和透明性,推动数据交易的合法化和公平化。
目前已经应用的大数据隐私保护措施有多种,主要是为了应对个人隐私泄露和数据滥用风险。以下是一些已经广泛应用的隐私保护技术和机制:
1. 数据匿名化(Data Anonymization)
- 通过移除或加密与个人身份相关的信息,使得数据无法直接与具体个人联系起来。常见的做法包括对敏感信息进行脱敏处理,比如去除姓名、地址、社保号码等。这种技术常用于医疗、金融等领域,确保在分享数据时无法轻易识别个人。
- k-匿名性(K-anonymity),L-多样性(L-diversity),T-接近性(T-closeness)
2. 差分隐私(Differential Privacy)
- 差分隐私是一种通过向查询结果中加入噪声数据来保护隐私的技术。它允许对数据库进行统计分析,同时确保无法确定某个特定个人是否包含在数据库中。大公司如Google和Apple都在使用差分隐私来保护用户数据。例如,Apple在iOS系统中利用差分隐私分析用户的行为习惯,但不暴露个人身份。
3. 访问控制与加密(Access Control & Encryption)
- 数据加密是保护隐私的基础技术,确保数据在存储和传输过程中不会被未授权者访问。同时,严格的访问控制机制通过身份验证和权限管理,确保只有授权用户才能访问敏感数据。许多云存储服务、金融机构和医疗系统广泛使用这一技术。
4. 联邦学习(Federated Learning)
- 联邦学习是一种分布式机器学习技术,通过在多个设备上本地训练模型,然后将模型更新发送回中央服务器,而不传输实际数据。这样,个人的数据不会离开设备,从而有效保护隐私。Google已经在Android设备上应用了这一技术,用于改善用户输入体验的预测模型。
5. 隐私同态加密(Homomorphic Encryption)
- 同态加密允许对加密数据直接进行操作,而无需解密,这意味着数据可以在不暴露明文的情况下进行计算。尽管这项技术尚处于发展阶段,但已经有一些应用,特别是在金融、医疗等需要高安全性的数据分析领域。
6. 访问日志与审计(Logging & Auditing)
- 通过记录和审计数据访问日志,组织可以监控和检测可能的隐私侵犯行为。任何访问、修改或者分享数据的行为都会被记录,确保有迹可循。这在许多政府和金融机构中是标准的做法。
7. 用户授权管理(Consent Management)
- 大数据隐私保护的重要部分是让用户对其数据有控制权。用户授权管理平台允许用户同意或拒绝对其个人数据的特定用途,同时确保数据使用的透明度。这在GDPR(欧盟《通用数据保护条例》)实施后被广泛应用,尤其是在线广告和营销领域。
8. 数据最小化原则(Data Minimization)
- 数据最小化是指仅收集和处理与服务直接相关的数据,避免收集过多的个人信息。这种方法在大数据分析中逐渐被采用,以减少数据泄露的风险。
9. 分布式隐私保护技术(Distributed Privacy-Preserving Technologies)
- 通过区块链等去中心化的技术来保护数据隐私,减少数据集中存储和管理带来的安全风险。这种技术主要应用于金融、供应链管理和医疗等需要确保数据完整性和隐私的领域。
这些隐私保护技术和机制帮助大数据应用保持高效和安全,同时防止数据滥用,确保个人隐私在分析和使用过程中得到充分保护。
一、大数据隐私保护的条例
- 《通用数据保护条例》(GDPR) - 欧盟
- 颁布时间: 2016年4月27日(正式生效日期:2018年5月25日)
- 《加州消费者隐私法》(CCPA) - 美国加州
- 颁布时间: 2018年6月28日(正式生效日期:2020年1月1日)
- 《个人信息保护法》(PIPL) - 中国
- 颁布时间: 2021年8月20日(正式生效日期:2021年11月1日)
- 《韩国个人信息保护法》(PIPA) - 韩国
- 颁布时间: 2011年3月29日(正式生效日期:2011年9月30日)
二、大数据监管的条例
- 《通用数据保护条例》(GDPR) - 欧盟
- 颁布时间: 2016年4月27日(正式生效日期:2018年5月25日)
- 《数据共享与分析管理条例》(Data Sharing and Governance Act) - 新加坡
- 颁布时间: 2018年(实施日期:2018年6月)
- 《联邦贸易委员会法》(FTC Act) - 美国
- 颁布时间: 1914年9月26日(作为基础法律,但关于隐私和数据保护的部分为后续扩展)
- 《澳大利亚隐私法》(Australian Privacy Act) - 澳大利亚
- 颁布时间: 1988年(后续经过多次修订,最近一次大修为2014年)
三、大数据垄断的防范条例
-
《数字市场法》(DMA) - 欧盟
- 颁布时间: 2020年12月15日(欧盟委员会提出草案,正式通过为2022年)
-
《谢尔曼反垄断法》(Sherman Antitrust Act) - 美国
- 颁布时间: 1890年7月2日
-
《反垄断法》(Anti-Monopoly Law) - 中国
- 颁布时间: 2007年8月30日(正式生效日期:2008年8月1日)
第九条 经营者不得利用数据和算法、技术、资本优势以及平台规则等从事本法禁止的垄断行为。
2022年6月24日通过,自2022年8月1日起施行。
-
《开放数据指令》(Open Data Directive) - 欧盟
- 颁布时间: 2019年6月20日(正式生效日期:2021年7月17日)