设为主页 |收藏

登录实名注册找回密码

传媒教育网 › ›新闻聚焦 › 查看内容

韩国发布《生成式AI使用“公开数据”标准指南》

2024-7-18 15:25| 发布者: 刘海明| 查看: 63| 评论: 0|来自: 数据法盟（公众号）

摘要: 2024年7月17日，韩国个人信息保护委员会正式发布《处理人工智能（AI）开发和服务中使用“公开数据”标准指南》，一个大模型预处理和AI产品处理公开个人数据的标准。

来源：互联网法律匠

作者：麻策

2024年7月17日，韩国个人信息保护委员会正式发布《处理人工智能（AI）开发和服务中使用“公开数据”标准指南》，一个大模型预处理和AI产品处理公开个人数据的标准。

该指南是一个难得的优质标准，总共近44页，通过非常完整的版块以及详尽的技术解释、并附以通俗易懂的场景案例。

韩国个人信息保护委员会认为，现行韩国法律中没有明确的标准来处理公开的个人信息，因此企业的不确定性很高。对此，个人信息委员会通过此次指南明确介绍为AI开发和服务而合法处理公开个人信息的法律依据。

韩国在生成式人工智能领域非常卷，其个人信息委员会在2023年8月发布《AI时代安全个人信息利用政策方向》，2024年2月发布非结构化数据假名处理标准，在5月又发表的《合成数据生成参考模型》之后，这一次又发布了《处理人工智能（AI）开发和服务中使用“公开数据”标准指南》，具体落实了适用于快速变化的人工智能、数据处理环境的个人信息保护原则和标准。为了使大规模语言模型（LLM）等AI开发的“核心原料”——公开的个人信息能够合法、安全地使用，韩国个人信息保护委员会提出了一定的标准，旨在降低企业的不确定性，提高国民的信任。

韩国个人信息保护委员会认为，公开的个人信息与个人信息处理者和信息主体之间没有以特定服务为媒介进行连接的直接关系，因此很难根据个人同意或合同签订等进行操作。对此，考虑到AI开发的目的和公开的个人信息的特性、风险水平等，“正当利益”条款可以成为实质性的合法依据。

以下是总结的划重点Q&A：

一、预训练和服务

在大模型预训练阶段，伴随着包括公开个人信息在内的学习数据收集、存储、加工（代币化等前处理）等，这属于个人信息保护法上的“处理”。大模型预训练是将文本、图像等非结构化数据转换为机器可以学习的格式，以查找结构、模式（如代币化），在此过程中个人识别性可能会降低。此外，机器通过反复学习概率性地决定标记化单词（或形态素）的位置、顺序、结构等排列方式，因此不能断定其主要目的是识别个人。而在AI服务阶段，以下情况涉及到个人信息处理：（i）用户可以通过输入包括个人信息在内的提示来获得有关个人的结果值；（ii）提示输入和结果值可以再次用于AI学习目的，因此相当于个人信息的“处理”。

二、提示词数据

有一个重要的内容，是需要区别公开的个人信息与用户输入数据的区别。用户在AI模型中输入的问题（提示）和答案可能包含个人信息，AI开发者和服务提供商可以将这些数据用于AI学习目的。将用户输入数据用于AI学习目的时，与公开的个人信息一样，必须满足个韩国人信息保护法第15条规定的合法依据。与通过大规模网络扫描收集的公开个人信息处理不同，用户输入数据可以根据用户和AI服务提供商之间的1:1关系，在透明的通知和同意下进行最后期限的数据处理。因此，如果希望将用户输入数据用于AI学习目的，与公开的个人信息不同，正当利益（Ⅱ）条件的认定范围实际上可能会受到限制，自愿同意、合同等其他合法依据可能会更有效。

三、公开的个人信息

指南的对象“公开的个人信息”是任何人都可以合法访问的个人信息。主要是指网站、博客、维基百科、Common Crawl、法令公示和公开的个人信息、出版物、广播媒体等中包含的个人信息。非公开或仅对部分人公开的信息、私人对话等不属于公开的个人信息。目前很多国内外AI企业等为了确保学习数据，通过网络扫描等公开收集和利用可访问的数据。韩国大法院根据公开的个人信息的特点，判定信息主体已经公开的个人信息，在客观上可以在同意意向可以认定的范围内，未经另行同意即可处理。

四、敏感公开个人信息

运营者可能不小心公开了卡号、唯一识别号等敏感信息，这些信息被利用后会不会出现问题？学习完成的AI模型可能包含（embedded）可以识别个人的信息、记忆风险（memorization risk）、提示攻击等可能会导致和暴露学习数据中包含的个人信息。披露的数据可能包含违法或错误披露的个人信息，需要采取一定的安全措施。个人信息委员会和KISA以公共和民间网站为对象，检测并删除身份证号码、护照号码、驾照号码等保护法规定禁止暴露的个人信息的暴露和非法流通。定期更新检测到的网站的URL，并向AI企业等公开，企业可以将该网站排除在学习数据之外，以提高安全性。同时，为了不让敏感信息在《指南》中暴露，还介绍了确保安全性的措施，企业可以根据情况适用。例如，不回答询问特定人个人信息的问题等，适用提示过滤；固有识别信息等敏感信息需事先非识别等。

五、企业措施限度

从企业的立场来看，可能会感到引入指南中提出的各种安全措施的负担，对此个人信息委员会的立场是？

不要求企业采用和履行本指南中列出的所有安全措施（指南中也明确规定）。引导企业根据AI类型、用例等个别条件自主采用最佳的安全性确保措施，以实现AI性能和安全性的协调，避免一律监管带来的负担。此外，指南明确介绍了收集和利用AI学习中公开的个人信息的标准和条件，因此也会减少企业负担。开发生成型AI的主要企业已经在实施一定的安全措施，但通过指南可以得到企业和学术界正在研究的各种安全措施的指导，为重新检查和完善现有的个人信息保护措施提供参考。

六、AI企业责任

未履行本指南中提出的个别措施并不意味着公开的个人信息处理立即违法。但是，由于运营商对可预期或实际存在的风险不采取适当的安全措施而导致重大信息主体侵权的，主张“正当利益”作为处理公开个人信息的法律依据的可行性可能无法得到认可。指南的目的不是调查或制裁，而是消除AI企业等的不确定性。指南发行后，将与主要AI企业进行沟通，监控企业为确保AI安全性采取的措施，并为营造个人信息安全使用的条件持续进行政策努力。

七、合法利益运用

如果AI企业以正当利益为依据处理公开的个人信息，企业是否需要证明？
收集和使用为AI学习和服务而公开的个人信息时，韩国个人信息保护法第15条第1款第6号的正当利益条款可以成为实质性的合法依据。个人信息处理者的“正当利益”是个人信息处理的合法利益，不仅包括AI开发者和服务提供者的营业利益，还包括由此产生的社会利益等多个层面的利益。韩国《隐私权法》要求在个人信息处理者的正当利益得到认可的情况下，满足以下三个条件：(i)会有个人信息处理者的正当利益；(ii)个人信息处理对于实现正当利益是具有必要性的，并且具有相当大的相关性和合理性。LLM的开发需要大规模的学习数据，以模拟人的语言发音结构和脉络等，生成准确的预测，为此，LLM的开发依赖于互联网上公开的数据作为现实方案，这可以称为必要性。（ii）个人信息处理者的正当利益明显优先于信息主体的权利。在实务上设定目的并评估“目的的正当性”时，可以区分训练为执行特定目的任务的“特定目的AI”和可以执行多种下游任务（downstream task）的“通用AI”。（特定目的AI）最好最大限度地具体定义AI的目的和用途*（intended purpose/use），包括（生成AI）文档摘要、翻译、图像生成、语音合成等（辨别AI）招聘、信用评估、排名、欺诈检测、诊断辅助等。而（通用AI）考虑到AI的目的和用途难以预定义的局限性，可以利用在合理范围内可预测的AI系统类型（type）、技术上可实现的功能（functional）、性能（capability）等作为代理变量（proxy）来具体化正当利益的内容。原则上由企业承担公开个人信息处理合法性的证明责任。建议寻求正当利益的AI企业参考指南中提出的判断标准和适用案例，自行评估是否满足合法依据，并记录其依据。

八、安全措施不确定

AI是一项技术、服务结构、应用领域、目的等多种多样，发展形态千变万化的技术。目前，为了在发展AI性能的同时提高公正性、透明性、安全性等，正在讨论各种措施，但作为“万能解决方案”的安全措施尚未可知。提高安全性的个别措施可能会产生偏向、歧视、性能下降等负面效果，与其一律要求企业自行履行特定安全措施，不如选择并履行“最佳组合”。
但是，从企业的立场来看，“最佳组合”的判断可能存在不确定性。本指南介绍了实际企业的案例，并计划持续发掘业界正在研究和实施的最佳案例，并将其反映在指南中，以供AI企业今后参考。

九、数据集验证

公开数据可能包含大量违法或与信息主体意愿无关的公开个人信息，需要努力验证数据收集来源。在AI学习用图像数据库LAION数据集中发现至少1000张儿童xin剥削图像（“23.12”）等来源验证的必要性正在提高。如果AI开发人员直接使用Web Scraping工具收集公开的个人信息，则需要遵守网站使用条款和机器人排除标准等。如果AI开发人员希望使用第三方收集和分发的数据集（例如，Common Crowl），则最好确认其是否为可信的第三方，并查看该数据集中包含的主要数据源列表。个人信息保护委员会计划定期现行地提供删除、阻止韩国信息主体个人信息暴露页面（URL）的信息。学习数据可能包含偏向或不准确的信息，也可能包含敏感的私人信息，因此通常会伴随着预处理过程，但这并不能预防所有风险，因此建议通过微调（fine tuning）建立额外的安全机制。（提示过滤器）如果用户通过提示输入对个人进行分析或诱导生成隐私侵害可能性较大的答案，则需要考虑拒绝生成答案或根据提示的脉络和宗旨提供事先确定的答案等方式。如果实际输入的提示符要求获取包含姓名的个人（named individual）信息，请首先确认是否开设了具有该名称的个人的维基百科（Wikipedia）页面，如果没有维基百科页面，则也有不提供该查询结果的事例。

十、跨国企业歧视

是否有可能因为指南而在国内企业和跨国企业之间产生歧视？**该指南适用于国内外运营商，因此不必担心指南会导致国内外企业之间的歧视。另外，在制定指南的过程中，与国内外企业随时沟通，听取意见并反映在指南中。例如，海外事业者以韩国信息主体为对象提供财货、服务的情况；即使不以韩国信息主体为对象提供财物或服务，也会处理韩国信息主体的个人信息，产生直接且相当大的影响。参考《海外事业者个人信息保护法适用指南》。因此，对于海外AI开发者和服务提供者，（i）以韩国信息主体为对象提供财物或服务，（ii）处理韩国人或韩国信息主体的个人信息，对韩国信息主体产生影响等，原则上适用本指南。

十一、恶意犯罪利用

通过公开的个人信息学习的AI是否被用于识别特定人或恶意利用犯罪等？

对于用于个人识别目的、恶意用于犯罪等的AI，原则上不能成立“正当利益”，只有优先于“信息主体的权利”才能成立。指南中也介绍说，结合人脸识别DB，以对个人进行分析和监视为目的开发AI；网络攻击或钓鱼、短信等以冒充个人诈骗为目的的AI，目的的正当性无法得到认可。顺便说一句，为了学习公开的个人信息，防止公开的AI模型被恶意利用，多家AI企业正在制定和实施安全、负责任的AI使用许可政策。AI开发者-分发者-运营商等之间的责任分担和作用需要进一步研究。

十二、开源和闭源模型

开源模型是任何人都可以自由查看、修改和部署的软件，在最初部署后，开发者的控制力会减弱。因此，开发开源模型的运营商应制定和分发许可政策，明确说明如何使用和条件的范围以保护隐私，并寻求确保开源运营商遵守的方案。此外，如果在部署的开源模型中发现与个人信息相关的漏洞，则需要迅速研究并重新部署这些事项和措施。同时，如果开源模型被恶意运营商误用和滥用，侵犯了个人信息，最好提供立即举报其事实的功能和工具。

十三、用户权利保护

特别是在AI结果值中包含个人信息的情况下，AI开发者和服务提供者应根据信息主体的要求迅速采取过滤、微调等安全措施，尽量减少个人信息侵害风险，并在以后重新学习AI模型时将其排除在学习数据之外。当AI开发人员和服务提供商通过销毁或标记学习数据等前处理过程证明个人识别在技术上不可行时，信息主体的学习数据阅览、更正和删除要求等可能会受到限制在这种情况下，AI开发人员和服务提供商必须告知信息主体以便于理解，并承担最终的证明责任。

十四、指南其它Q&A

Q1 在海外收集韩国人公开的个人信息是否属于国外转移？

在海外收集韩国人公开的个人信息时，不能认为有个人信息处理者的“转移”行为，因此不属于国外转移，适用个人信息保护法第15条（个人信息的收集、利用）等。

Q2 为了提高AI的性能，需要大量的学习数据，有没有标准来判断AI开发所需的数据和不必要的数据？

通常，AI开发可能需要处理大量学习数据，但需要检查是否不符合相当的性和合理性要求。

Q3 学习数据收集来源应该在多大程度上公开？

即使通过网络扫描收集数据，也应公开具体的来源（如域名）。但是，如果现实中很难一一公开具体的来源，我们建议您公开以剪裁的方式收集的公开个人信息用于学习，以及主要来源类型和收集标准（如遵守机器人排除标准等）。

Q4 如果我使用他人分发的数据集，如何确认数据正在合法收集和分发？

如果从数据分发平台（如Common Crowl）获取数据集，建议首先确认该平台是否受信任，并确认该平台的数据收集和分发标准。如果您直接从第三方获得数据集，您还可以考虑从分发方获得收集合法性的承诺。

Q5 历史人物等死者的信息也是本指南的适用对象吗？

历史人物等死者的信息不属于个人信息，除非包含有关其遗属、后代等活着的个人的信息，否则不属于本指南的适用范围。

Q6 AI企业等为提供服务而收集的用户数据（会员注册信息）或用户在AI模型中输入的问题（提示）和答案用于AI学习目的时，可以根据哪些法律依据？

从用户数据的情况来看，以用户和AI企业之间的1:1关系为前提，可以在透明的告知和同意的基础上进行最后期限的数据处理，考虑到个人信息保护法制是基于可选的（事先同意）等因素，正当利益条件的认定范围实际上可能会受到限制，自愿同意或签订、履行合同等其他合法依据可能会更有效。

Q7 以AI开发和服务为目的，可以假名处理个人信息，未经信息主体同意进行处理吗？

根据《个人信息保护法》第3条第7款（匿名、假名处理的原则）、第28条第2款（假名信息的处理等），如果AI开发和服务属于科学研究等，在未经信息主体同意的情况下，可以处理假名信息。

Q8 敏感度高的公开个人信息也可以以AI学习、服务为目的进行处理吗？

在大规模网络扫描过程中，可能会收集到高敏感度的信息项目，在这种情况下，信息主体权利的限制和侵害可能性可能会比普通个人信息更高，因此需要相应地加强安全措施和信息主体权利保障水平。特别是，在收集大量数据时，要特别注意不包含敏感信息。

Q9 儿童公开的个人信息可以以AI学习、服务为目的进行处理吗？

与敏感性较高的公开个人信息一样，儿童个人信息也属于受法律加强保护的项目，因此需要比普通个人信息更高级别的安全措施和信息主体权利保障。

Q10 没有专业CPO的小微企业等如何落实内部管理体系？

对于年销售额或收入低于1500亿韩元或处理100万人以下个人信息等不符合《个人信息保护法》执行令第32条第4款规定标准的小型企业等，没有指定专门CPO的义务，具有处理个人信息的决策权或有责任的人可以扮演CPO的角色。【注】个人信息保护法修订（2024.3.15。实施），随着专业CPO指定制度的实施，考虑到销售额、个人信息拥有规模等因素，以一定标准*以上的个人信息处理者必须承担指定具有4年以上个人信息保护、信息保护、信息技术经验（必须具备2年个人信息保护经验）的CPO的义务（但是，对于法律实施时被指定为CPO的人，将在2年内具备资格条件，暂缓适用法律）。*①年销售额或收入在1500亿韩元以上的人，处理100万人以上个人信息或5万人以上敏感、固有识别信息的个人信息处理者②在校生人数在2万人以上的大学（包括研究生院在校生人数）③处理大规模敏感信息（健康信息）的上级综合医院公共系统运营机构

Q11 如何确认AI企业为获得基于正当利益条款的公开个人信息处理的合法性认可而实施的安全性确保措施以及信息主体权利保障水平是否充分？

在AI生命周期中采取中层安全措施可能有助于合理获利量刑。但是，每个措施对AI性能的影响都不同，建议参考“安全性确保措施效果比较（p.26）”和“安全措施组合案例（p.27）”引入和实施“最佳组合”。如果AI公司在应用指南的过程中遇到不确定性，可以积极利用咨询制度，如“事前适当性审查”。

Q12 如果不履行指南中提出的个别措施，会发生什么情况？

未履行本指南中提出的个别措施并不意味着公开的个人信息处理违法。综合考虑AI企业等的AI开发、服务目的和脉络、与公开个人信息处理相关的信息主体权益侵害水平等，判断公开个人信息处理的合法性。

来源：数据法盟（公众号）

链接：https://mp.weixin.qq.com/s/Z-QbVcVdxOfrMnKG9JuhqQ

编辑：刘诗扬