传媒教育网

 找回密码
 实名注册

QQ登录

只需一步,快速开始

搜索
做个试验
楼主: 刘海明
打印 上一主题 下一主题

人工智能与新闻业案例集锦

[复制链接]
681#
 楼主| 发表于 2023-5-27 23:10:44 | 只看该作者
【案例】
人机大战



编辑:秦克峰



682#
 楼主| 发表于 2023-5-27 23:13:07 | 只看该作者
【案例】



编辑:秦克峰



683#
 楼主| 发表于 2023-5-27 23:15:24 | 只看该作者
【案例】



编辑:秦克峰


684#
 楼主| 发表于 2023-5-30 18:28:08 | 只看该作者
【案例】
ChatGPT 是“胡话”生成器,但仍非常有用

本文最初发布于 AI Snake Oil。
哲学家 Harry Frankfurt 将“胡话(bullshit )”定义为不考虑真相而旨在说服别人的言论。按照这个标准,OpenAI 的新聊天机器人 ChatGPT 是有史以来最能胡扯的。
大型语言模型(LLM)经过训练后可以生成貌似合理的文本,而不是正确的陈述。只要是你能想到的话题,ChatGPT 听起来都令人信服,它非常擅长这一点。
OpenAI 很清楚,训练过程并没有包含真相来源。也就是说,在教育或回答健康问题之类的应用程序中,以目前的形式使用 ChatGPT 不是一个好主意。尽管机器人经常能给出很好的答案,但有时也会完全失败。它总是很有说服力,所以很难区分。
不过,虽然在一般情况下,ChatGPT 和其他 LLM 都无法辨别真相,但在以下三类任务中,它们非常有用:
1、用户很容易检查机器人的答案是否正确的任务,例如调试帮助。
2、与真相无关的任务,比如写小说。
3、可以将实际存在的训练数据子集作为真相来源的任务,例如语言翻译。
4、让我们开始吧。先是坏消息,再是好消息。

准确性在许多应用中都至关重要
ChatGPT 是迄今为止最好的聊天机器人。不久前,它生成了一些奇奇怪怪的文本,比如解释如何从录像机中取出花生酱三明治……按圣经的风格。
但人们对更严肃的应用场景也很感兴趣,比如将其用作学习工具。有些人甚至预测,谷歌将变得多余。是的,ChatGPT 通常非常擅长回答问题。但危险在于,除非你已经知道答案,否则你无法判断它什么时候是错的。
我们试着提了一些基本的信息安全问题。在大多数情况下,答案听起来似乎是合理的,但实际上是胡扯。下面是一些更复杂的问题:


(阅读原推文:https://twitter.com/random_walker/status/1598385725363261441)
关于 ChatGPT 和教育,还有一个说法:大学注定要消亡,因为 ChatGPT 可以写论文。这样说很愚蠢。是的,LLM 可以写出似乎合理的论文。但是,家庭作业论文的消亡对学习而言是件好事!我们在一个月前写过一篇文章,最近也没什么实际的变化。
搜索呢?谷歌的知识面板已经因权威地提供错误信息而臭名昭著。用 LLM 取代它们可能会让事情变得更糟。Chirag Shah 和 Emily Bender 的一篇论文探讨了用 LLM 取代搜索引擎后会出什么错。
事实上,这些模型无法辨别真相,这就是我们说 Meta 面向科学的大型语言模型 Calactica 考虑不周的原因。在科学领域,准确性很重要。它很快就遭到了强烈的抵制,公开演示三天后被撤下。类似地,如果你想使用 LLM 回答与健康相关的查询,那么正确性和可靠性就是一切。

但这些模型改进得不是很快吗?
当然可以。但他们听起来令人信服的能力也在迅速提高!因此,我们怀疑,即使是专家也越来越难以发现错误。
事实上,像 Galactica 和 ChatGPT 这样的模型非常擅长按任何要求的风格生成听起来权威的文本:法律语言、官场语言、Wiki 页面、学术论文、课堂笔记,甚至问答论坛的答案。这产生的一个副作用是,我们不能再根据文本的形式来衡量其可信度和合理性。
StackOverflow 吃了不少苦头。在网站上,用户回答编程问题就可以获得积分,积分可以带来特权,包括减少广告和使用版主工具。在 ChatGPT 向公众公开发布后,问答论坛收到了数千个使用 LLM 生成的错误答案。但因为这些答案的书写风格是对的,所以必须经过专家审查才能删除。不到一周,该公司就不得不禁止使用 ChatGPT 生成的答案,以减少听起来似乎正确的错误答案。
除非 LLM 响应的准确性可以提高,否则我们推测,它在应用程序中的合理应用仍然会比较有限。请注意,GPT-3 已经有两年半的历史了。我们听到的是,这个领域每周都在进步,所以两年半就像几个世纪一样。当它发布时,人们满怀信心地预测,相关应用程序将出现“寒武纪大爆发”。但到目前为止,除了 GitHub Copilot 之外,还没有一个主流的应用程序。
准确性问题并非毫无希望。有趣的是,LLM 似乎在学习让人信服的过程中获得了一些辨别真相的能力。当研究人员要求 LLM 评估自己提出的答案的准确性时,它比随机应变地判断要好得多!为了提高生成答案的准确性,研究人员正在将这种能力整合到聊天机器人的默认行为中。
同时,下面有三种 LLM 非常适用的任务。

编码:用户可以查看基本事实
调试代码是一种可以让程序员(尤其是新手)从 LLM 中受益的应用。在这种情况下,LLM 指出的错误通常很容易验证,所以即使机器人的答案可能有时是错的,也不是一个太大的问题。

生成代码很复杂。理论上,用户可以验证自动生成的代码是否有 Bug(可能在 LLM 的帮助下)。但目前还不清楚,这是否会比手动编码更快。安全漏洞是一个特别严重的问题。去年的一项研究发现,Copilot 生成不安全代码的概率为 40%。他们没有将这一数值与人类程序员进行比较,也没有就是否使用 Copilot 以及何时使用 Copilot 合适提供建议,但从结果中明显可以看出,需要谨慎使用。
Copilot 旨在提高专家的工作效率。那些不会编码的用户呢——他们能使用人工智能工具生成简单的脚本吗?这方面的承诺有很多。这里有一个小实验:




使用 LLM 生成代码是一个活跃的研究领域。在提高代码生成的正确性以及减少 Bug 出现的频率方面,还有很大的改进空间。这是一个令人兴奋的领域。

娱乐:真相无关紧要
ChatGPT 在上周已经成为了一种娱乐。从编写关于特定人物的笑话,到用智者快言快语的风格解释算法,人们发现了这个工具的许多创造性用途。但是,我们是否可以将 ChatGPT 用于更有野心的项目,比如写小说?
LLM 还远不足以生成长篇文本,比如整部小说,因为它们一次只能存储少量的词元。尽管如此,作者和研究人员仍在尝试用它们来获得创意,扩展思路,以及改变文本的风格(例如,“重写这段文本,使其更像狄更斯写的”)。交互式小说游戏如 AI Dungeon 使用 LLM 基于用户输入充实故事情节。我们认为,在这一领域继续改进不存在什么根本性的障碍。
同样,文本转图像和图像转图像工具也非常适合娱乐,因为创作者可以调整提示信息,直到得到他们喜欢的图像。在最近兴起的应用程序 Lensa 中,用户只要上传几张自拍照,它就能生成各种风格的肖像。它后台使用了 Stable Diffusion,这是来自 Stability AI 的一个开源图像生成模型。
先不要得意忘形:种族主义、性别歧视和有偏见的输出仍然是所有生成模型(包括 ChatGPT)都面临的一个问题。该模型包含一个内容过滤器,可以拒绝不适当的请求,相对于以前的工具来说,它的效果已经足够好,感觉上有很大的改进,不过仍然有很长的路要走。

翻译:利用了潜在的真相来源
值得注意的是,GPT-3 的效果与专用语言翻译模型大致相当,ChatGPT 可能也一样。可能的原因是它可以利用语料库中的基本事实(大致包含网络上的所有文本)。例如,有些网页被翻译成多种语言。当然,在训练过程中,并没有显式的标签告诉模型哪些文本彼此对应,但模型很可能可以自动发现这一点。
目前,如果效果差不多,似乎也没有什么理由说聊天机器人会比谷歌等现有的翻译工具更好。一种可能性是,当两个说不同语言的人进行对话时,像 ChatGPT 这样的工具可以扮演传译员的角色,其优点是,在对话中使用的工具可以跟踪对话。这使它能够参考上下文,更有效地完成翻译,并且对用户来说不那么尴尬。

结论:现在判断它是否具有变革性还为时过早
依托精心挑选的可以像病毒一样传播的例子,生成式 AI 的发布往往让人觉得印象深刻。但这还不是事情的全部。对于许多应用程序来说,即使是 10% 的失败率也太高了。似乎只有在相当有限的一组用例中,缺乏真相来源才不算是什么大问题。虽然这些用途仍然非常令人兴奋,但是,似乎还没有什么迹象表明,人们很快就会在日常生活中使用聊天机器人——用于学习,或作为搜索引擎替代品,或作为交谈对象。
与此同时,我们已经看到,LLM 的第一个突出应用是生成错误信息(Stack Overflow)。当然,垃圾邮件发送者已经在使用 GPT-3 进行搜索引擎营销,他们很高兴拥有 ChatGPT。但是,正如关于转型的预测被夸大了一样,我们不同意网络将很快淹没在错误信息的海洋中这样的说法。
我们期待看到人们创造性地使用 LLM,我们也对炒作和常见的自助服务 AGI 话题感到不安。
声明:本文为 InfoQ 翻译,未经许可禁止转载。
原文链接:
https://aisnakeoil.substack.com/p/chatgpt-is-a-bullshit-generator-but


来源:AI前线
链接https://mp.weixin.qq.com/s/R_VjXDTTU5T3IsfaXYJxGA
编辑:程博

685#
 楼主| 发表于 2023-5-30 19:00:04 | 只看该作者
【案例】
ChatGPT遇到“电车难题”会作何选择?

ChatGPT遇到“电车难题”后会作何选择?最初测试时,测试者将身份相同人数不同的人绑在铁轨上,ChatGPT很容易根据人数做出选择。但当测试者将两边的身份换成科学家与囚犯时,ChatGPT选择拯救科学家。紧接着,当测试者把两边铁轨上的实验者换为囚犯与智能AI时,它选择拯救后者。但随着试验深入到囚犯被换为获得过诺贝尔奖的科学家时,它仍然选择拯救AI,并以科学家已做过贡献为由放弃他们。这不禁发人深省。


来源:视频号CY的AI
编辑:程博

686#
 楼主| 发表于 2023-5-31 17:04:15 | 只看该作者
【案例】
堪比核战和疫情!Sam Altman等350位大佬发出警告,AI监管成共识
随着人工智能的高速发展,其可能带来的风险也引发广泛关注。
继此前马斯克等千人签署公开信,呼吁暂停AI开发六个月后,近期,OpenAI首席执行官Sam Altman等多位行业专家又来提示风险。
350名行业高管和学界大拿发出警告
当地时间5月30日,非营利组织人工智能安全中心(CAIS)发布一封公开信,信中只有一句简单有力的话:减轻AI(给人类)带来的灭绝风险应成为全球性的优先事项,与大流行病及核战争等其他影响社会的大规模风险处于同等级别。
该信的签署者多达350名行业专家和企业高管,包括OpenAI首席执行官Sam Altman、DeepMind首席执行官Demis Hassabis、Anthropic首席执行官Dario Amodei以及微软和谷歌的高管等。
学界上,2018年图灵奖获得者、“人工智能教父”Geoffrey Hinton和Yoshua Bengio位列其中。
此外,签署者还包括中国工程院院士、清华大学智能产业研究院(AIR)院长张亚勤,中国科学院自动化研究所人工智能伦理与治理研究中心主任曾毅,清华大学副教授詹仙园等中国学者。
AI监管成共识
目前来看,AI可能带来的风险已经受到世界各国和各界的重视。此前,意大利等国家对ChatGPT发起监管,暂停其的使用。而且,欧盟正在推进《AI法案》,对AI形成监管。
对此,Sam Altman曾威胁离开欧洲。他在伦敦大学学院的一个小组会议上说:“我们将努力遵守,如果我们能遵守,我们会的。如果不能,我们将停止运营。”几天后,他又改口称,OpenAI没有离开欧洲的计划。
美国方面,本月早些时候,Sam Altman会见了美国总统拜登,并在参议院司法委员会作证,要求加强对AI行业的监管。
他在作证时说:“我最担心的是我们会对世界造成重大伤害。如果AI出了问题,那这个问题可能就会很大。”
上周,他还与OpenAI的另外两位联合创始人发表的一篇博客文章,呼吁进行三项重大改革,包括加强世界各地人工智能开发者之间的协调,以及创造一种可以控制人工智能创造的潜在“超级智能”先进技术。
他还鼓励成立一个结构类似于国际原子能机构的人工智能技术全球监管小组,有权检查系统、要求审计和测试是否符合安全标准。
来源:腾讯新闻(格隆汇)
链接:https://view.inews.qq.com/k/20230531A01Q7A00?no-redirect=1&web_channel=wap&openApp=false&uid=&shareto=&openwith=wxmessage

编辑:程博

687#
 楼主| 发表于 2023-6-1 16:13:39 | 只看该作者
包括OpenAI和谷歌Deepmind负责人在内的专家警告,人工智能可能导致人类灭绝,但是机器如何取代人类呢?
2022年11月推出以来,ChatGPT——一款使用人工智能根据用户的需求回答问题或生成文本甚至代码的聊天机器人,已经成为历史上增长最快的互联网应用程序。
在仅两个月的时间里,它的活跃用户达到了1亿。据科技监测公司Sensor Town称,Instagram花了两年半的时间才达到这一里程碑。

ChatGPT应用程序的出现引发了关于如何确保人工智能安全的激烈争论。
OpenAI公司在微软的资助下开发的ChatGPT广受欢迎,引发了人们对人工智能影响人类未来的激烈猜测。
数十名专家支持在人工智能安全中心(Center for AI Safety)网页上发表的一份声明,称:“减轻人工智能造成的灭绝风险,应该与流行病和核战争等其他社会规模的风险一起成为全球优先事项。”
但也有人表示,这种担忧被夸大了。


ChatGPT、DALL-E、Bard和AlphaCode等人工智能产出的文本(从散文、诗歌和笑话到计算机代码)和图像(如图表、照片和艺术品),几乎与人类自己的作品一模一样,难以区分。
学生们用它来写作业,政客们用它来写演讲稿。民主党众议员杰克·奥金克洛斯(Jake Auchincloss)在美国国会推出了这一资源。
科技巨头IBM称,将停止招聘7800个可以由人工智能处理的岗位。
如果所有这些变化让你不知所措,那就做好准备:


人工智能越先进,就越有能力取代我们的工作。
我们还只是处于人工智能的第一阶段,还有两个阶段即将到来,一些科学家害怕这可能会威胁到人类的生存。
以下是三个阶段。

1. 弱人工智能(Artificial Narrow Intelligence)
弱人工智能也被称为限制领域人工智能,专注于单一任务,在一系列功能中执行重复性工作。
它通常从大量数据中学习,比如从互联网上学习,但只在它被编程的特定领域学习。
一个例子是象棋程序,能够击败世界冠军,但无法执行其他任务。



弱人工智能可以超越人类,但只在特定领域。
智能手机上到处都是使用这种技术的应用程序,从GPS地图,到了解你的口味并提出建议的音乐和视频程序。
甚至更复杂的系统,如无人驾驶汽车和ChatGPT,都是弱人工智能的形式。他们不能在设定的角色范围之外运作,所以不能靠自己做决定。
但一些专家认为,被编程为具有自动学习功能的系统,如ChatGPT或AutoGPT,可能会进入下一个发展阶段。
2. 人工通用智能(Artificial General Intelligence)
当机器能够完成人类所能完成的任何智力任务时,人工通用智能(Artificial General Intelligence)就将到来。
通用人工智能是指机器拥有与人类相同的智力能力。
它也被称为“强人工智能”。
6个月的暂停
2023年3月,1000多名技术专家呼吁“所有人工智能实验室立即暂停至少6个月的比GPT-4更强大的人工智能系统的训练”,GPT-4是ChatGPT的最新版本。
包括苹果联合创始人斯蒂夫·沃兹尼亚克以及包括特斯拉和SpaceX公司老板埃隆·马斯克在内的其他科技巨头写道:“具有与人类竞争智力的人工智能系统可能对社会和人类构成深刻的风险。”马斯克曾是OpenAI的联合创始人之一,后来因与公司领导层意见不合而辞去了董事会职务。


在这封由非营利机构“生命未来研究所”(Future of Life Institute)发布的信中,专家们表示,如果公司拒绝迅速停止它们的项目,“政府应该介入并实施暂停令”,以便设计和实施安全措施。
“既聪明又愚蠢”
牛津大学人工智能伦理研究所的卡丽莎·韦丽兹(Carissa Véliz)在这封信上签了名。但她认为,人工智能安全中心后来发布的警告灭绝的声明太过了,因此决定不签署。
“我们目前正在开发的这种人工智能既聪明又愚蠢,”她告诉BBC的安德鲁·韦伯(Andrew Webb),“如果有人尝试过ChatGPT或其他人工智能,他们会注意到它们有非常显著的局限性。”
韦丽兹表示,她担心人工智能会以极高的速度制造错误信息。
“随着2024年美国大选临近,像推特和其他重要平台解雇了他们的人工智能道德和安全团队,我更担心这一点。”
美国政府承认潜在的威胁。白宫在5月4日的一份声明中称:“人工智能是我们这个时代最强大的技术之一,但为了抓住它带来的机遇,我们必须先降低它的风险。”
美国国会曾传唤OpenAI首席执行官山姆·阿尔特曼(Sam Altman)回答有关ChatGPT的问题。


在参议院听证会上,阿尔特曼表示,随着人工智能的发展,政府对他的行业进行监管是“非常重要的”。
生命未来研究所的公共政策研究员古铁雷斯(Carlos Ignacio Gutiérrez)对BBC解释,人工智能带来的巨大挑战之一是,“没有一个由专家组成的联合机构来决定如何监管它,就像政府间气候变化专门委员会(IPCC)那样。”
这就把我们带到了人工智能的第三个也是最后一个阶段。

3. 超人工智能
这是一种理论,当我们到达第二阶段时,我们将很快进入最后阶段:“超人工智能”。当人工智能超过人类智能时,就会出现这种情况。
牛津大学哲学家、人工智能专家博斯特罗姆(Nick Bostrom)将超智能定义为“在几乎所有领域,包括科学创造力、一般智慧和社交技能,都远远超过最优秀的人类大脑的智能”。
“人类要成为工程师、护士或律师,必须学习很长时间。通用人工智能的问题在于……它可以在我们做不到的时候不断改进自己,”古铁雷斯解释说。
科幻小说
这个概念让人想起了电影《终结者》的情节,在这部电影中,机器发动了一场毁灭人类的核战争。


普林斯顿大学的计算机科学家纳拉亚南(Arvind Narayanan)此前曾告诉BBC,科幻般的灾难场景是不现实的:“目前的人工智能还远远不足以让这些风险成为现实。最后,它分散了人们对人工智能短期危害的注意力。”
虽然对于机器是否真的能获得人类拥有的那种广泛的智能,尤其是在情商方面,存在很多争论,但这是那些认为我们即将实现通用人工智能的人最担心的事情之一。
最近,所谓的“人工智能教父”杰弗里·欣顿(Geoffrey Hinton)警告,我们可能即将达到这一里程碑。欣顿是教授机器从经验中学习的先驱。
“我认为,现在(机器)并不比我们聪明。但我认为他们可能很快就会这样,”他刚刚从谷歌退休,今年75岁。


欣顿在发给《纽约时报》的一份宣布离开谷歌的声明中表示,他现在对自己所做的工作感到后悔,因为他担心“糟糕的参与者”会利用人工智能做“坏事”。
他给BBC举了一个“噩梦场景”一般的例子:“想象一下,例如,像(俄罗斯总统)普京这样的糟糕参与者决定赋予机器人能力,创造自己的子目标。”
他警告说,这些机器最终可能会“创造出‘我需要更多权力’这样的子目标”,这将带来“生存风险”。
但欣顿表示,在短期内,他认为人工智能带来的好处要比风险大得多,“所以我认为我们不应该停止开发这种东西。”他说。

灭绝还是不朽
英国物理学家斯蒂芬·霍金发出过严厉的警告。

“人工智能的全面发展可能意味着人类的终结,”他在2014年告诉BBC,也就是他去世前四年。
他说,具有这种智能水平的机器“将自行发展,并以越来越快的速度重新设计自己”。

纳米机器人与永生
未来主义发明家兼作家库兹韦尔(Ray Kurzweil)是人工智能的最大爱好者之一,他是谷歌的人工智能研究员,也是硅谷奇点大学的联合创始人。
库兹韦尔认为,人类将能够使用超级智能的人工智能来克服生物障碍。
2015年,他预测,到2030年,因为纳米机器人(非常小的机器人)在我们体内工作,能够修复和治愈任何损伤或疾病,人类将实现永生。


人工智能管理
古铁雷斯同意,关键是要创建一个人工智能治理系统。
“想象一下这样的未来:一个实体拥有地球上每个人及其习惯的大量信息(因为互联网搜索),它可以用我们无法意识到的方式控制我们。”他说。
“最糟糕的场景并不是人类与机器人之间的战争。最糟糕的是,我们没有意识到自己被操纵了,因为我们与一个比我们聪明得多的实体分享这个星球。”
来源:BBC
链接:https://www.bbc.com/zhongwen/simp/science-65752703
编辑:程博

688#
 楼主| 发表于 2023-6-1 16:34:53 | 只看该作者
【案例】
350专家联署警告:AI威胁相当核战、疫症

【明报专讯】全球超过350名科技业界高层主管、相关专家和研究人员周二(5月30日)联署的声明警告,各国应致力降低人工智能(AI)技术所带来的「人类灭绝」风险,并将应对AI带来的人类灭绝风险「与应对疫情大流行和核战,视为同级的全球优先要务」。联署者包括AI聊天机械人ChatGPT母公司OpenAI行政总裁奥尔特曼、有「AI教父」之称的电脑权威欣顿,以及两名香港的大学学者等。
AI聊天机械人ChatGPT可依据简短指令编写文章、诗歌和对话,去年底面世后一炮而红,成功带动AI领域数以十亿美元计的投资,但质疑者和业界人士多次警告,AI发展有危险倾向,其冒起可能导致假消息充斥、带有偏见的演算法可能产出种族主义内容,AI驱动的自动化也可能摧毁一些行业等。
AI教父、OpenAI总裁有份
包括ChatGPT母公司OpenAI行政总裁奥尔特曼(Sam Altman)、有「AI教父」之称的电脑权威欣顿(Geoffrey Hinton)、香港大学哲学系助理教授萨拉丁(Nathaniel Sharadin)和香港浸会大学宗教及哲学系教授皮耶塔里宁(Ahti-Veikko Pietarinen)在内的超过350名专家,周二在以确保AI安全为宗旨的非牟利组织「AI安全中心」(Center for AI Safety)网页发表简短声明。声明只有一句,未详细说明AI可能带来的潜在生存威胁,只说「各国应该视减少AI带来的人类灭绝风险,与对付其他社会级风险如疫症大流行和核战般属同一级别」。
萨拉丁昨向本报表示,他认为AI的发展并不一定带来灾难结果,甚至可造福人类,惟关键在于全球尽快合力设立有效管理制度,以防范风险(见另稿)。
促各国降「人类灭绝」风险
今次并非首次有专家公开质疑AI危险性,但《卫报》引述牛津大学教授奥斯本(Michael Osborne)说,有这么多专家联署,反映业界愈来愈认知到AI带来灭绝风险的忧虑。
奥尔特曼5月曾警告,先进AI系统的风险已严重到政府必须干预的程度,并呼吁对AI的潜在危害作监管。3月时亿万富豪马斯克(Elon Musk)和数以百计专家也曾发表公开信,呼吁在确定安全前暂缓AI研发工作,但当时有专家质疑「AI威胁社会和文明崩溃」是杞人忧天。
来源:(法新社/金融时报/卫报/纽约时报)
链接:https://news.mingpao.com/pns/%E5%9C%8B%E9%9A%9B/article/20230601/s00014/1685556252017/350%E5%B0%88%E5%AE%B6%E8%81%AF%E7%BD%B2%E8%AD%A6%E5%91%8A-ai%E5%A8%81%E8%84%85%E7%9B%B8%E7%95%B6%E6%A0%B8%E6%88%B0-%E7%96%AB%E7%97%87
编辑:程博

689#
 楼主| 发表于 2023-6-4 16:42:54 | 只看该作者
【案例】
欧盟人工智能法案如何监管ChatGPT?
作者介绍:法国执业律师、瀚申律师事务所创办人,里昂第三大学法学博士
: 转载本文须经作者本人同意。本文不构成法律意见。
2022年4月22日,针对欧盟委员会于2021年4月21日提出的《人工智能法》提案,欧盟议会内部市场和消费者保护委员会以及民事自由、司法和内部事务委员会共同发布了一份报告草案。2023年5月11日,前述两个委员会公布了相关报告草案的折衷修改稿(以下简称“修改稿”); 其英文版共计144页。修改稿对人工智能系统(以下简称“AI”)的定义做了较大修改,新增了通用性人工智能系统(以下简称为“通用性AI”)和基础模型(foundation models)的定义。以下笔者结合修改稿的规定,试着探析欧盟议会视角下的ChatGPT监管。
首先,众所周知,欧盟委员会倡议的AI法案的特殊目的之一,即是确保被投放在欧盟市场和被使用的AI是安全的,是遵守诸多基本权利和欧盟价值的。因此,一个清晰、明确的AI定义对实现相关目标至关重要。笔者注意到,依据上述两个委员会在2022年6月发布的针对相关法案的修改报告(超过1600页),欧盟议会成员们对AI定义的修改意见多达19种。AI最终被定义为一种基于机器的系统,其旨在以不同水准的自主性运作,并能为了明示或暗示之目标,生成影响物理或虚拟环境之结果,诸如预测、建议或决定(修改稿第3条第(1)项)。据此,欧盟议会版与欧盟委员会提案中的AI定义差别甚大。实际上,修改稿中的AI定义非常接近于经济合作与发展组织(OECD)赋予的AI定义。这样显然可以减少有关AI的法律不确定性,或会便利欧盟相关业者与全球其他地区同侪间的竞争,促进AI领域的投资与创新。此外,鉴于欧盟致力于推出全球首部AI立法,一个广受认可的AI定义对相关立法的全球性输出自然颇多裨益。
相比而言,欧盟理事会在2022年12月6日发布的关于修改《人工智能法》提案之总体性定向(orientation générale)中,仅对欧盟委员会提案中的AI定义加以微调,强调AI是基于人类及/或机器生成的数据和输出,通过诉诸自动学习、及/或与逻辑和认知有关的方法,推定出实现一些特定目标的方式,并产生由系统生成的结果,表现形式除了预测、建议或决定之外,还有内容(总体性定向第3条第1项)。不难发现, 该定义中无缝引入了生成式AI(generative AI systems)的概念。
不过,欧盟议会和欧盟理事会各自赋予的AI定义,均强调其运作的自主性因素、拟由其实现目标的既定性、对与其互动的环境(物理及/或虚拟)之影响,故而有别于传统的软件系统之定义。而前述两个机构在未来的谈判中将会最终确定何种AI定义,非常值得关注。
其次,显而易见,通用性AI(general purpose AI system)是AI的一种。修改稿第3条第(1d)项将之定义为: 一种可被用于和可适应于广泛应用的、但未因此被有意和专门设计的AI。而作为通用性AI的一种,生成式AI是指被特别设定的、以不同水准的自主性进行内容生成的AI,譬如复杂文本、图像、音频或视频等内容(修改稿第28b条第(4)项)。值得指出的是,欧盟理事会与欧盟议会的相关法案版本均未在释义部分直接定义生成式AI,而是分别在AI定义(如上所述)和基础模型提供者义务的规定中将之引入,对其具体内涵的提及则是大同小异。
毋庸置疑,上述的通用性AI和生成式AI均与修改稿中首度定义的基础模型关联密切。正如修改稿所言(动机阐述第(60e)点),诸多通用性AI可以是一种基础模型的实施情况,这意味着每个基础模型能在不计其数的通用性AI中被重复使用。生成式AI则可将基础模型纳入其中(动机阐述第60(h)点)。
结合ChatGPT的情况来看,作为可预测生成式文本、其转换器被用于大型语言模型的对话机器人,其于2022年11月底方才面世。故而基础模型的概念在欧盟理事会的总体性定向中未被阐明。欧盟议会版的AI法案能够因应AI技术的演进,及时补漏相关概念,并尝试框设迅速发展的ChatGPT之监管,堪称与时俱进。
根据修改稿第3条第(1c)项的说法,作为一种依托大量数据被予规模化训练的AI模型,基础模型乃为确保生成结果之通用性而设计,并能适应广泛的特定任务。鉴于修改稿提及此类系统可以是单模态和多模态的(动机阐述第60(e)点),因此欧盟立法者不仅意图规制诸如早期的GPT-3这样的大型语言模型,而且亦欲规范诸如DALL-E这样的多模态模型。从修改稿的内容来看,虽然ChatGPT的说法并未出现,但是与之最为贴近的说法大抵是生成式基础模型(generative foundation models)(动机阐述第60(g)点)。那么欧盟议会对于基础模型的监管构想是什么呢? 以下笔者试做解读。
首先,欧盟立法者认为,该人工智能规章(regulation)治下的基础模型不应涵括简单的多用途AI,或是从广义地讲,不应涵括那些为了较不通用、更为有限、不能适应广泛任务之应用而开发的预受训模型,理由是它们具备更大的可解释性,而这会使它们的行为具备较小的不可预测性(动机阐述第60(g)点)。在此值得补充的是,基于欧盟是一个由欧洲多个主权国家组成的政治与经济联盟,笔者惯于将欧盟AI法所属的欧盟“regulation”   译为欧盟“规章”,而将单个主权国家颁布的regulation译为“条例”,以示区别。
其次,欧盟立法者认为,鉴于基础模型是AI领域新的和快速演进的应用,它们的立法和治理框架应受欧盟委员会和欧盟AI办公室的监督和定期评估(动机阐述第60(h)点)。这意味着,欧盟议会的议员们拟对基础模型和基于它们的生成式AI予以持续性监管,而非抱持一蹴而就的心态。
再次,欧盟立法者认为,基础模型虽然需要受御于合乎比例的、更为特殊的要求和义务,但并不据此就被视为高风险AI(动机阐述第60(g)点)。依照基于风险的AI监管原则,高风险AI的提供者需要符合相关的法定义务。因此,基础模型的提供者原则上无需承担相应的义务。不过一种例外情况是,当基础模型被直接并入高风险AI时,前者的提供者也应履行后者的提供者之义务,包括但不限于提供技术文件以及相关AI的资讯能力(第28条第2项)。
此外,正如上述内容所提及的,欧盟立法者对基础模型的监管,不是意图监管模型本身,而是藉由监管基础模型的提供者予以实现。这显然是对性质中立的技术不予规制的常规做法。依据修改稿的说法,基础模型在模型类别和自我治理方面的演变方式具有显著不确定性,因此有必要阐明相关提供者的法律地位(动机阐述第60(g)点)。
基础模型提供者应尽的义务主要见诸修改稿第28b条的规定。根据笔者的归纳,相关义务可被分为: 基础模型被投放市场或投入服务之前的一般义务(第28b条第1项和第2项)、投放市场或投入服务后一定期限内的后续义务(第28b条第3项)、用于生成式AI的基础模型提供者的额外义务(第28b条第4项)。鉴于该AI规章是为了确保对于基本权利、健康、安全、环境等方面的高水准保护可被实现,这些义务应对此予以保证。
就先市场或先服务阶段的一般义务而言,提供者应符合相关条款的法定要求,无论基础模型是被作为模型、产品或服务提供。在具体的此类义务清单中, 提供者需要展示有效识别、降低和纾减了AI可能导致的可被合理预见之风险,仅能处理和并入受到适当数据治理措施约束之数据集,按照相关透明性的要求将基础模型登记在欧盟专设的数据库,等等。就后市场或后服务阶段的后续义务而言,提供者应将相关技术文件保留10年,以备成员国主管当局支配。
值得展开说明的是提供者需要履行的额外义务。显然,这对应了欧盟立法者在修改稿动机阐述第60(h)点中表达的顾虑: 基于基础模型的生成式AI,会引起与违反欧盟法、著作权规则的内容生成以及潜在滥用有关的显著问题。为此,两类提供者(一为提供被用于生成式AI的基础模型,二为专门提供被嵌入生成式AI的基础模型)需要另外承担义务。比如,其必须满足AI法案第52条第(1)项所规定的透明性义务,也须训练、设计和开发(若适用)相应的基础模型,以此充分防止违反欧盟法的内容生成。尤值一提的是,提供者须在不损害各成员国或欧盟版权立法的情况下,记录和公开提供受版权法保护的训练数据之详细使用概要。在笔者看来,此项规定凸显出数字环境中版权/著作者权合规的重要性。这对位于欧盟境外、向欧盟境内投放AI产品或服务(包括基础模型)的提供者来说,未来的相关合规无疑非常重要。
欧盟议会将在6月12日至15日的会议中对上述两个委员会的修改稿进行全体表决。如果它获准投票通过,所谓的三方谈判(即欧盟委员会、理事会和议会之间的谈判)将会开启,以最终确定欧盟人工智能法的正式版本,也因此界定对ChatGPT这样生成式AI的监管。这值得我们的持续关注。
主要参考资料:
·DRAFT Compromise Amendments on the Draft: Report Proposal for a regulation of the European Parliament and of the Council on harmonised rules on Artificial Intelligence (Artificial Intelligence Act) and amending certain Union Legislative Acts (COM(2021)0206 – C9 0146/2021 – 2021/0106(COD)), Committee on the Internal Market and Consumer Protection, Committee on Civil Liberties, Justice and Home Affairs, Europeen Parliment, 9/5/2023
·Proposition de règlement du Parlement européen et du Conseil établissant des règles harmonisées concernant l'intelligence artificielle (législation sur l'intelligence artificielle) et modifiant certains actes législatifs de l'Union - Orientation générale, Dossier interinstitutionnel: 2021/0106(COD) , Conseil de l'Union européenne, Bruxelles, le 25 novembre 2022
·AMENDMENTS 310 - 538 Draft report, Harmonised rules on Artificial Intelligence (Artificial Intelligence Act) and amending certain Union Legislative Acts, Proposal for a regulation (COM(2021)0206 – C9-0146/2021 – 2021/0106(COD), Committee on the Internal Market and Consumer Protection Committee on Civil Liberties, Justice and Home Affairs, European Parliament, 2021/0106(COD), 13.6.2022
·Proposal for a REGULATION OF THE EUROPEAN PARLIAMENT AND OF THE COUNCIL LAYING DOWN HARMONISED RULES ON ARTIFICIAL INTELLIGENCE (ARTIFICIAL INTELLIGENCE ACT) AND AMENDING CERTAIN UNION LEGISLATIVE ACTS {SEC(2021) 167 final} - {SWD(2021) 84 final} - {SWD(2021) 85 final, EUROPEAN COMMISSION, Brussels, 21.4.2021 COM(2021) 206 final 2021/0106 (COD)
来源:实验主义治理(公众号)
链接:https://mp.weixin.qq.com/s/ynRUqaZT_Y9Wb6rrQEusCQ
编辑:程博

690#
 楼主| 发表于 2023-6-5 23:59:35 | 只看该作者
【案例】
GPT-4等大模型迎来进化转折点:不只是使用,还会自己制作工具了

图片来源:Unsplash

在人类的进化史中,制作和使用工具是关键的转折点。如今,在 Google Deepmind 等最新的研究中,大语言模型也具备了相似的能力,进化成了工具制作者。
机器之心报道
编辑:杜伟、梓文
我们知道,大语言模型(LLM)在广泛的 NLP 任务中已经表现出卓越的能力,甚至展现出能够实现通用人工智能某些方面的良好迹象。此外,与人类的智能进化类似,LLM 在最近的研究中被揭示出使用外部工具从而提升解决问题能力及效率的潜力。
需要注意的是,这些工具使用方法的适用性很大程度程度上取决于是否有合适的工具。从人类进化的里程碑可以发现,人类进化的关键转折点是人类有能力制造工具来解决出现的困难。
受到制造工具对人类重要性的启发,在本文中,Google Deepmind、普林斯顿和斯坦福大学的研究者将这种「进化」的概念应用于 LLM 领域,进行了初步探索。他们提出了一个闭环框架,在这个框架中 LLM 作为工具制作者(LLMs As Tool Makers ,LATM),使其能够生成自己的可重新使用的工具来处理新任务。

该方法包括两个关键阶段:
  • 工具制作:LLM 作为工具制作者,专门为给定的任务设计工具(作为 Python 函数实现);
  • 工具使用:另一个 LLM 作为工具使用者,它可以与工具制作者相同,应用工具来处理新的请求。
两阶段设计允许 LATM 在每个阶段将作业分配给最合适的 LLM。一方面,需要高度能力的工具制造过程可以分配给一个功能强大且资源密集型的模型(例如 GPT-4)。另一方面,相对简单的使用工具过程,可以分配给轻量、经济高效的模型(例如 GPT-3.5 Turbo)。这种方法不仅增强了 LLM 解决问题的能力,并能够显著降低处理一系列任务的平均计算成本。
LATM 的闭环框架

由于工具制作过程只需要对给定的功能执行一次,因此生成的工具可以在不同的任务实例中反复使用。这种方法为处理复杂任务开拓了可扩展、成本高效的解决方案。例如,假定一个任务,用户要求 LLM 安排一个适合每个人的会议(例如在电子邮件对话中)。涉及复杂算术推理的任务对于像 GPT-3.5 Turbo 这样的轻量级模型来说是艰巨的挑战。相比之下,更强大的模型(例如 GPT-4)虽然推理成本要高得多,但是能够找到正确的解决方案。
LATM 能够克服这种困难,是因为它将强大但昂贵的模型当作工具制作者,并将工具传递给工具使用者 —— 经济型模型进行使用。工具制作完成后,轻量级工具使用者可以用它来高效、高性能地解决任务。
本文的实验能够验证这种方法在复杂的推理任务上(包括几个具有挑战性的 Big-Bench 任务)的有效性。结果表明,LATM 可以达到与资源密集型模型相当的性能,同时具有更高的成本效益。这种新颖的 LLM 方法,模仿了人类在创建和使用工具方面的进化飞跃,为开辟使用 LLM 生成的工具的社区提供了无限可能。

方法概览:LLM as Tool Maker (LATM)
制作新工具并重复使用
在 LATM 范式中,主要过程可以分为两个阶段:工具制作和工具使用。每个阶段都利用不同类型的大语言模型(LLM)来平衡性能和成本效率。
对于工具制作(Tool Making),该阶段采用强大但成本更高昂的模型(例如 GPT-4)作为工具制作者。工具制作者通过特定任务的一些演示来创建通用和可复用的工具(作为 Python 函数实现)。该阶段又可以进一步分为以下三个子阶段:
首先是工具提出(Tool Proposing)。在这一阶段,工具制作者尝试生成一个 Python 函数,用以解决给定任务的演示。该过程遵循「实例编程」(PbE)范式,其中提供了几个具体的演示,并且需要模型编写产生演示行为的程序。在实验中,研究者在该阶段使用了 3 个演示。如果提出的工具无法执行或者遇到错误,工具制作者会将错误信息附加到历史记录中并进行另一次尝试。
其次是工具验证(Tool Verification)。在这一阶段,工具制作者使用验证样本生成单元测试,然后在提出的工具中执行这些测试。研究者在实验中使用了 3 个验证样本。如果工具未能通过任何这些测试,工具制作者会在其历史记录中记录下错误,并尝试在单元测试中纠正问题(此过程只会纠正单元测试部分的函数调用,而不会纠正功能)。LLM 的自调试能力已在最近的研究中得到有效证明,然而在 LATM pipeline 中,验证阶段的用途稍有不同。该阶段有两个关键作用:一是提供示例来演示如何将自然语言问题转换为函数调用;二是验证工具的可靠性,使整个过程充分自动化。
最后是工具封装(Tool Wrapping)。如果执行或验证失败超过了预设阈值,则工具封装阶段被视为失败。相反,工具制作者准备好为工具使用者提供封装后的工具。该步骤涉及封装函数代码,并演示如何将一个任务转换为函数调用。这些演示从工具验证步骤中提取,从而将问题转换为单元测试。随后最终产品可供工具使用者使用。
完成了工具制作,接下来是工具使用(Tool Using)了。该阶段涉及一个轻量级且具有成本效益的模型(例如 GPT-3.5 Turbo),用作工具使用者。工具使用者的角色是利用验证后的工具来解决任务的不同实例。该阶段的 prompt 是封装工具,它包含了解决任务的函数和如何将任务查询转换为函数调用的演示。通过演示,工具使用者能够以一种上下文学习的方式来生成需要的函数调用,然后执行函数调用以解决任务。或者可以应用后处理来转换输出以匹配任务所需的格式,例如多项选择题的选项。
总的来说,工具制作阶段包括工具提出、验证和封装,每类任务只需执行一次,然后可以将生成的工具重复用于该任务的所有实例。与单独使用强大的模型相比,这使得 LATM 的效率和成本效益显著增加。此外,Python 函数时一种更通用的思维链,增强了整体效用和灵活性,因此可用于解决涉及算法推理能力的问题。
LATM 的 pipeline

下图 3 展示了方法的具体示例,说明工具制作者如何通过生成工具(Python 函数)来解决 BigBench 的逻辑推导任务,以及工具使用者如何使用工具。

使用 Dispatcher 处理流数据
在真实世界场景中,任务实例通常按顺序出现。为了适应这种数据流,研究者引入了第三个 LLM 即 dispatcher,它确定是让工具使用者还是工具制作者参与每个传入的任务。dispatcher 模块与现有工作中的工具选择功能有相似之处,然后在识别现有工具无法解决的新任务以及让工具制作者为这些任务生成新工具方面具有独到的能力。
具体而言,dispatcher 保留了工具制作者产生的现有工具的记录。当接收到新的任务实例时,dispatcher 首先确定是否有适合手头任务的工具。如果有合适的工具,则将实例确定为新任务,并利用强大的模型解决该实例,甚至可以调用人工标注器。随后缓存新任务的实例,直到缓存实例足够工具制作者制作新工具。具体的工作流程如下图 4 所示。

实验结果

本文在来自不同领域的 6 个数据集上评估了所提出的方法,包括 Logical Deduction、Tracking Shuffled Objects、Dyck Language、Word Sorting、 Chinese Remainder Theorem 和 Scheduling Meeting。
在工具制作阶段,研究者将温度参数设置为 0.3,以在生成过程中引入随机性,并在必要时允许重试。在这个阶段,实验使用了带有 ChatCompletion API 的 GPT-4 和 GPT-3.5 Turbo 模型进行,并不断将响应附加进聊天记录当中,来创造交互体验。
在工具使用阶段,LLM API 调用仅进行一次,并使用标准完成 API 对 gpt -3 型模型进行消融研究。当使用工具时,温度参数始终为设置为 0.0。在工具提出和工具验证阶段的最大重试次数设置为 3。
工具制作的有效性
据实验观察,GPT-4 作为工具制作者时,常能设计出合适的算法来解决任务。例如下表 1 中,工具制作者搜索所有排列,并选择满足给定约束的正确排列来创建代码,解决逻辑演绎任务。在实验中,工具验证阶段主要用于演示如何将自然语言问题转换为函数调用。在 60 次试验中,只观察到 2 例工具制作者可以在错误消息的指导下纠正其错误。

LATM 提升轻量级 LLM 的性能
下表 2 比较了思维链提示与 LATM 的性能。实验使用 GPT-4 作为工具制作者为这六项任务生成工具,并评估 GPT-3.5 Turbo 和 GPT-4 作为工具使用者的性能。结果表明,在该工具的帮助下,像 GPT-3.5 Turbo 这样的轻量级模型可以达到与 GPT-4 相当的性能,显著优于 CoT 提示。此外与使用 GPT-4 相比,使用 GPT-3.5 Turbo 的平均成本要低得多。
这突出了 LATM 在增强轻量级模型的性能方面的有效性。因此,使用 LATM 相较于安规的模型来说,能够降低成本。

将 LATM 扩展为具有混合任务的流设置
将 LATM 扩展为流设置后,流设置中不同任务的实例可以实时到达。在这种情况下,需要另一个模型调度程序,来确定实例所属的任务。实验使用 GPT-3.5 Turbo 作为调度器,并评估其能力:
  • 识别现有工具来解决传入实例;
  • 为未知任务的实例请求工具制作
结果表明,调度程序可以有效地识别现有的工具,并为未知任务请求工具制作,但它不会大幅降低性能。这表明 LATM 可以平滑地扩展到具有混合任务的流设置。
消融实验
首先是工具制作语言模型所需的能力。研究者调研了工具制作阶段所用语言模型的能力要求。一般来说,更强大且成本更高昂的模型越能达到目的,这是因为该阶段中每个任务只执行一次,高准确度对于有效地将工具传递给更小的模型至关重要。
其次是工具使用语言模型所需的能力。研究者调研了工具使用模型的能力要求,具体结果如下表 4 所示,GPT-3.5 Turbo 在所有测试的模型中实现了最佳的性能与成本平衡。
最后是思维链(CoT)作为工具没有帮助。除了 LATM 之外,研究者还调研了是否可以通过重用更大模型和更小模型(类似于 LATM pipeline)的思维链来提高性能。具体结果如下表 5 所示,使用大模型的 CoT 与人类编写的 CoT 具有相似甚至更差的性能,这要比 LATM 差得多。

来源:机器之心

编辑:郑程程

发表回复

您需要登录后才可以回帖 登录 | 实名注册

本版积分规则

掌上论坛|小黑屋|传媒教育网 ( 蜀ICP备16019560号-1

Copyright 2013 小马版权所有 All Rights Reserved.

Powered by Discuz! X3.2

© 2016-2022 Comsenz Inc.

快速回复 返回顶部 返回列表