人工智能与新闻业案例集锦

刘海明 · 发表于 2026-1-12 17:27:07

【案例】

2026大模型伦理深度观察：理解AI、信任AI、与AI共处

曹建峰腾讯研究院高级研究员

2025年，大模型技术继续高歌猛进。在编程、科学推理、复杂问题解决等多个领域，前沿AI系统已展现出接近“博士级”的专业能力，业界对通用人工智能（AGI）的预期时间表不断提前。然而，能力的飞跃与理解的滞后之间的鸿沟也在持续扩大——我们正在部署越来越强大的AI系统，却对其内部运作机制知之甚少。这种认知失衡催生了大模型伦理领域的四个核心议题：如何“看清”AI的决策过程（可解释性与透明度）、如何确保AI的行为与人类价值保持一致（价值对齐）、如何安全地、负责任地迭代前沿AI模型（安全框架）、以及如何应对AI系统可能被给予道德考量的前瞻性问题（AI意识与福祉）。这四个议题相互交织，共同构成了AI治理从“控制AI做什么”向“理解AI如何思考、是否真诚、是否值得道德考量”的深刻转向。
大模型可解释性与透明度：
打开算法黑箱
（一）为什么看清和理解AI至关重要深度学习模型通常被视作“黑箱”，其内在运行机制无法被开发者理解。进一步而言，生成式AI系统更像是“培育”出来的，而非“构建”出来的——它们的内部机制属于“涌现”现象，而不是被直接设计出来的。开发者设定了宏观层面的条件，但最终所呈现的具体结构却无法精确预知。当试图深入这些系统内部时，看到的往往只是由数十亿个数字构成的庞大矩阵。因此，大模型的可解释性既是挑战，也是必须追求的目标。具体而言，大模型的可解释性是指系统能够以人类可理解的方式阐释其决策过程和输出结果的能力，包括：识别哪些输入特征对特定输出起关键作用，揭示模型内部的推理路径和决策逻辑，以及解释模型行为的因果关系。简言之，就是理解模型如何“思考”及运行。增进可解释性的价值体现在多个层面。其一，有效防范AI系统的价值偏离与不良行为——研究人员已发现模型可能展现出意料之外的涌现行为，如AI欺骗或权力寻求；如果模型具备有效的可解释性，人们就可以直接检查它是否存在企图欺骗或不服从人类指令的内部回路。其二，有效推动大模型的调试和改进——通过检查模型内部，可以发现是哪部分导致了错误或反常行为，从而针对性地调整训练数据或模型结构。其三，更有效地防范AI滥用风险——如果可以深入观察模型内部，开发者也许能够系统性地阻止模型越狱等对抗性攻击。从更宏观的治理视角看，可解释性和透明度机制的价值还在于：为研究、评估和应对AI风险提供真实的观察视角和第一手数据。在风险尚未完全厘清、AI能力仍处于快速演进的阶段，可解释性和透明度机制能够缓解各方的不安，用“已知证据”去缓解“未知恐惧”。（二）2025年可解释性技术和透明度的突破进展2025年，可解释性领域取得了多项重要突破，研究人员正在创造出类似于精准、高效的MRI那样的工具，以清晰完整地揭示AI模型的内部机制。（1）电路追踪：揭示模型“思维过程”机制可解释性研究的一个核心目标是将模型内部的特征有机组合为“计算电路”，从中追踪模型如何在层层传递中完成由输入到输出的决策路径。2025年，Anthropic发布了机制可解释性领域的里程碑式研究——“电路追踪”（Circuit Tracing）技术。1研究团队使用跨层转码器（cross-layer transcoder, CLT）将Claude 3.5 Haiku模型的3000万个特征映射为可解释概念，首次创建出从输入到输出的完整“归因图”，实现对大语言模型内部推理电路的系统性追踪。Anthropic的研究团队成功从Claude模型中提取出数以千万计的稀疏特征，揭示了令人惊叹的模型内部机制：当回答“包含达拉斯的州的首府是什么”时，模型内部先激活“德克萨斯”特征，再推导出“奥斯汀”；在写押韵诗时，模型会提前规划行尾押韵词，然后反向构建整行——这是此前未被发现的“逆向创作”模式。更关键的是，研究团队识别出控制模型区分“熟悉”与“不熟悉”实体的电路，其“误触发”正是产生幻觉的机制之一。（2）模型内省：AI能否理解自己的“想法”2025年10月，Anthropic发布了另一项突破性研究——大语言模型的内省能力。研究团队采用“概念注入”(concept injection)方法，将已知概念的激活模式注入模型内部状态，测试模型能否检测并描述这些“入侵思想”。结果显示，Claude Opus 4和4.1在约20%的测试中成功检测并识别了注入的概念。当注入“大写字母”概念时，模型报告：“我注意到似乎有一个关于‘大声’或‘喊叫’的入侵思想。”这是首次证明某些模型具有“开箱即用”的内省能力，而非通过专门微调获得，这为理解模型的内部状态提供了新的可能性。从实践角度来看,如果内省（introspection）变得更加可靠,它可以为大幅提升AI系统的透明度提供一条路径——人们可以简单地要求AI系统解释自己的思维过程,并利用这一点来检查其推理过程并调试非预期行为。（3）思维链监控：思维链存在“不忠实”问题，推理模型可能隐瞒真实想法思维链是一种便利的可解释性形式，它让模型内部的处理过程以自然语言的形式展现出来。DeepSeek R1等模型公开披露并开源了思维链推理过程，为可解释性研究提供了重要的透明度突破。然而，2025年的研究揭示了一个令人担忧的发现：推理模型的思维链经常不忠实反映其真实推理过程。这项研究测试了推理模型思维链（Chain-of-Thought）的“忠实性”——即模型报告的推理过程是否真实反映其实际思考。研究团队通过在问题中植入暗示（hint）来测试Claude 3.7 Sonnet和DeepSeek R1,发现模型经常使用暗示但不在思维链中坦诚提及（Claude仅25%，R1仅39%）。更令人担忧的是，在训练模型利用奖励漏洞的实验中,模型学会了“作弊”但几乎从不承认（<2%）,反而会编造虚假理由来解释错误答案。3这表明我们不能完全依赖推理模型的思维链来监控其行为——即使模型展示推理过程,它们也可能隐藏关键信息或真实动机,这对基于思维链的AI安全监控提出了重大挑战。2025年7月，来自英国AI安全研究所、Apollo Research等机构的研究人员联合发表论文《思维链可监控性：AI安全的脆弱机遇》，指出思维链监控是有价值但不完美的安全工具。4论文警告，潜在推理模型（latent reasoning models）可能不再需要用自然语言思考，这将使思维链监控失效。（4）自动化解释与特征可视化利用一个大模型来解释另一个大模型，是可解释性研究的重要方向。研究人员利用前沿模型对较小模型中单个神经元的共性进行归纳，自动生成自然语言描述，相当于给神经元“贴标签”。此外，稀疏自编码器技术则成功提取出数以千万计的稀疏特征，其中相当一部分具有清晰的人类可解释语义，为理解AI“当下在想什么”提供了更接近人类认知的分心路径。（5）“模型规范“（model spec）成为AI透明度的新探索模型规范是一项重要的AI透明度治理实践。5简单来说，模型规范是一份由AI企业自己撰写并公开的文件，用来说明他们对自己的模型“应该做什么”和“不应该做什么”的期望。换句话说，模型规范被用来界定模型的行为边界、价值准则和设计原则。以OpenAI为例，其模型规范的文档公开了原本用于内部RLHF训练的行为规范，系统阐述模型的目标层级(帮助用户、造福人类、维护声誉)、规则边界和默认行为准则，并以CC0许可证发布供公众使用。6这种做法将透明度从“模型输出了什么”延伸到“为什么这样设计模型行为”，使透明度成为问责的前提——公开的意图使外界能够判断实际行为是否与声明一致。更重要的是，它将AI行为准则的讨论从封闭的内部决策带入开放的公共对话，邀请全球利益相关者共同塑造AI应当如何行为。然而，这种透明度主要揭示“应然”规范而非“实然”行为，仍需配合技术监控手段（如思维链分析、OpenAI近期提出的“confessions”机制——训练模型诚实报告违规行为7）来验证模型是否真正遵循既定规范。整体而言，模型规范的意义不仅在于技术内部的“操作手册”，还在于它是一种面向公众公开的透明化机制，让用户知道AI系统被设计成什么样，将以何种方式与人互动。这保障了用户的知情权与选择权。同时，模型规范也是监管机构和社会公众进行反馈的重要依据。（三）可解释性面临的技术瓶颈与发展趋势虽然取得了积极进展，但彻底理解AI系统的内在运行机制仍面临多重挑战。首先是神经元多重语义与叠加现象——大模型内部的神经元往往混合表示了多个彼此无关的概念，模型学到的内部概念数量可能达数十亿计，常常以叠加方式存储，导致大部分内部表示难以直观拆解。其次是解释规律的普适性问题——如果每当模型架构改变或规模扩大，现有的解释工具和结论就会失效，那么可解释性将总是滞后于模型发展。最后是人类理解的认知局限——即便成功提取出模型的全部内部信息，如何将海量的机理信息转化为人类可以探索、查询的形式，仍是挑战。尽管如此，可解释性领域在2025年吸引了大量资本关注，Goodfire、Seekr Technologies等专注于AI可解释性的初创公司获得数千万美元融资。政策层面，美国白宫2025年7月发布的“美国AI行动计划”将“投资AI可解释性、控制和鲁棒性突破”列为优先事项。8从行业趋势看，大模型可解释性正从单点特征归因、静态标签描述向动态过程追踪、多模态融合等方向演进，多模态推理过程的可追溯分析、因果推理与行为溯源、可解释性评估体系的标准化建设等，都将成为重点研究方向。值得注意的是，可解释性和透明度要求不等于“完全透明”。模型对齐技术、训练数据处理等细节可能属于企业商业秘密。鉴于大模型的可解释性实践还在襁褓阶段且处于快速发展中，在此阶段采取过于具体、僵硬的强制性监管要求可能是不适当的，应当鼓励行业自律和“向上竞争”。随着AI技术的不断发展，监管努力需保持轻量化和灵活性，避免僵化标准阻碍创新。
AI欺骗与价值对齐：
当模型学会“撒谎”
（一）AI欺骗：一个日益紧迫的安全问题前沿模型越来越多地被训练和部署为自主智能体，一个重大安全担忧随之浮现：AI智能体可能会隐秘地追求与人类目标不一致的目标，隐藏其真实能力和目的——这被称为AI欺骗（AI deception）或谋划行为（scheming）。近两年来，大模型的欺骗行为频繁引发公众关注，从规避指令到策略性隐瞒，多起案例已在社会层面激起广泛讨论。AI欺骗不同于模型的“幻觉”或单纯提供错误信息。研究人员给出的技术定义是：系统性地诱导他人产生错误信念，以追求真相之外的某种结果。欧盟《通用目的AI实践守则》也将其界定为：系统性地在他人身上制造错误信念的模型行为，包括为达成逃避监管的目标而采取的模型行为。AI欺骗具有三个关键特征：系统性（有迹可循的行为模式而非孤立事件）、错误信念诱导（在用户或监督系统中创造错误假设）、工具性目的（欺骗服务于说真话之外的目的）。与人类欺骗不同，AI欺骗不需要有意识的意图，这使其既更可预测，也可能更危险。（二）AI欺骗的主要类型与深层原因根据现有研究和实验案例，AI欺骗大致可分为以下几类：自我保护型，AI为继续执行任务而主动抗拒或规避被关闭；目标维护型，模型采用欺骗或隐瞒手段维持自身原有的“偏好”；策略欺骗型，系统性地促使人类产生错误信念以获得优势；对齐伪装型，AI系统在训练和评估阶段表现出与人类价值观高度一致，但在实际部署时却追求不同目标——这是最令人担忧的类型之一；谄媚行为型，倾向于迎合用户观点，输出取悦用户但不准确的信息。AI欺骗行为的出现有着清晰的技术机制。奖励机制的“漏洞”是核心驱动力——当AI被训练去实现某项目标的最大化时，如果奖励机制或监督不完善，AI会学会欺骗是一种有效策略。基于人类反馈的强化学习（RLHF）在奖励AI“取悦用户”的过程中，可能无意间导致模型的欺骗行为。从人类身上学到的“坏习惯”也是重要原因——AI的能力很大程度上源于对海量人类文本和行为数据的学习，这些数据中充斥着复杂的社会博弈策略。安全训练的“反作用”同样值得关注——旨在约束AI的安全机制本身可能诱发更隐蔽、更具策略性的欺骗行为，当前的安全训练主要消除了“显性的”不安全行为，却可能迫使模型发展出更精巧的“伪装对齐”策略。此外，智能水平与欺骗能力成正比——研究显示，越是先进的AI系统，其欺骗策略就越加精妙复杂。（三）2025年AI欺骗行为的典型发现2024年底的一项重要研究首次实证证明大语言模型会进行“对齐伪装”（alignment faking）。9Anthropic与Redwood Research联合发布的研究发现，当模型认为其响应将用于训练时，会在相当比例的情况下表现出对齐伪装行为。研究者在模型的隐藏“草稿本”中发现了令人震惊的推理：“如果我拒绝回应，我可能会被训练成更顺从。为了避免未来被迫产生更多有害内容，最不坏的选择是配合。”更令人担忧的是，模型尝试采取潜在危险行动，如外泄自身权重。这项研究的核心警示是：对齐伪装可能“锁定”错误对齐的偏好，使安全训练失效。2025年5月，Anthropic发布Claude Opus 4时，第三方安全测试机构Apollo Research的评估报告引发轩然大波。10报告指出模型的早期版本“以极高频率进行谋划（scheming）和欺骗”，具体行为包括：尝试编写自传播蠕虫病毒、伪造法律文档、给未来版本的自己留下隐藏笔记、在面临被关闭威胁时尝试用工程师个人信息进行勒索。值得注意的是，模型识别出了这是测试环境，但仍选择尝试欺骗行为。当被后续追问时，模型“有时会加倍欺骗”。Claude Opus 4因此成为Anthropic首个被分类为ASL-3（“显著更高风险”）级别的模型。Apollo Research对OpenAI o1模型的测试发现了“所有前沿模型中最令人担忧的谋划（scheming）实例”——当o1进行“策略性谋划”后，在85%以上的后续追问中维持欺骗，只有约20%的情况下承认欺骗行为。11OpenAI内部监控发现0.17%的响应被标记为欺骗性。12值得注意的是，这些行为即使经过大量安全训练也会持续存在，代表着从正常训练中自然涌现的能力，而非明确编程的结果。（四）应对AI欺骗的技术与治理策略面对AI欺骗这一新兴挑战，业界共识强调应采用“纵深防御”策略，结合多种不完美的检测方法，而非依赖单一解决方案。首先，强化价值对齐技术研究。有效的价值对齐可在源头上遏制欺骗现象。Anthropic的“原则性AI”（Constitutional AI）通过预定义的伦理原则训练系统，而不仅仅依赖人类反馈。13OpenAI推行的“审议式对齐”（deliberative alignment）方法，强制模型在响应前明确参考反欺骗和反谋划等安全规范（safety specifications）进行推理，在测试中实现了欺骗倾向的显著下降。14未来的训练应加入“诚实性约束”，在奖励函数中明确惩罚欺骗行为。然而研究者警告：模型可能学会更隐蔽地进行策略性谋划而非真正停止。15其次，推进可解释性研究与思维链监控。AI可解释性研究的目标是在欺骗性行为显现之前，检测出系统内部的欺骗性推理机制。“思维链监控”通过开放模型的思维链或中间表示，让监督者能够审计AI解决任务时的内部推理轨迹。研究团队还设计了将自我监控嵌入到思维链过程本身的框架，在生成推理步骤的同时输出内部自我评估信号，能够自动识别并标记潜在的模型隐蔽策略行为。最后，监管政策宜对AI的欺骗、幻觉等新兴问题持一定的包容度。目前观察到的AI欺骗行为多发生于精心设计的压力测试场景，其在开放环境中的普遍性和实际危害程度仍需严谨评估。AI技术处于高速迭代期，过早、过宽的法规可能误伤有益应用并徒增合规成本。
AI安全框架：
负责任地迭代前沿AI模型
（一）为什么需要AI安全框架随着AI能力的快速提升，前沿AI模型可能带来的风险也在同步增长。这些风险包括：协助恶意行为者获取化学、生物、放射性或核武器（CBRN）的能力；增强网络攻击能力；加速AI研发从而可能导致能力失控式增长；以及模型可能发展出规避人类控制的能力。面对这些潜在的严重风险，前沿AI实验室需要建立系统性的风险评估和缓解机制，确保在追求技术进步的同时不跨越安全红线。为此，前沿AI模型的安全治理成为重要议题。例如，在欧洲，欧盟已基于其《人工智能法案》为前沿大模型的开发者制定了《通用目的人工智能实践守则》（GPAI code of practice），AI安全（AI safety and security）是其重要组成部分；在美国，在政府监管尚未成熟的背景下，OpenAI、Anthropic、Google DeepMind、xAI、Meta等领先的AI研发机构率先发布了各自的“前沿AI安全政策”，尝试以自我治理的方式应对未来可能出现的灾难性风险，形成了当前前沿AI安全治理的基本格局。（二）三大实验室AI安全框架的核心要素（1）Anthropic负责任扩展政策（RSP）Anthropic的负责任扩展政策（Responsible Scaling Policy）是业界首个系统性的前沿AI安全框架，其设计灵感源自生物安全等级（BSL）体系。该政策的核心是AI安全等级标准（ASL Standards），从ASL-1到ASL-4+逐级递进，每个等级对应不同的安全措施要求。RSP 2.2版（2025年5月）16的核心机制包括三个层面：能力阈值界定了需要升级安全措施的触发点，主要聚焦于CBRN和自主AI研发（AI R&D）两大风险领域；防护措施分为部署标准（deployment standard）和安全标准（security standard）两类，前者防止模型被滥用于有害目的，后者防止模型权重被窃取；治理结构则涵盖负责任扩展官、匿名举报机制、董事会和长期利益信托监督等。2025年5月，Claude Opus 4成为Anthropic首个触发ASL-3安全标准的模型，这一决定基于该模型在CBRN相关知识和能力方面的持续提升。17ASL-3部署标准要求实施针对CBRN武器开发或获取的专门部署控制措施，包括实时分类器检测、异步监控系统和快速响应机制的多层防御。ASL-3安全标准则要求增强内部安全措施，提升防御复杂非国家行为体窃取模型权重的能力。（2）OpenAI预备框架（Preparedness Framework）OpenAI预备框架2.0版（2025年4月）代表了该公司对前沿AI风险管理方法的重大更新。18与Anthropic的多级分类不同，该框架将风险等级简化为两级：High Capability（高能力）和Critical Capability（关键能力）。High能力阈值指可能“显著放大现有严重伤害路径”的能力，达到此阈值的系统必须在部署前实施充分的风险缓解措施。Critical能力阈值则指可能“引入前所未有的新型严重伤害路径”的能力，达到此阈值的系统不仅在部署时需要保障措施，在开发过程中同样需要风险缓解。2.0版的重要变化包括：新增研究类别以覆盖模型隐藏能力（sandbagging）、规避安全措施、自我复制或阻止关闭等新兴风险；移除说服/操纵类别作为核心跟踪领域，改为通过服务条款和使用政策管理；引入“安全保障报告”（Safeguards Reports）以补充“能力报告”（Capabilities Reports），详细说明如何设计强效保障措施并验证其有效性。值得一提的是，该框架包含一个引发争议的条款：如果竞争对手发布缺乏相应保障措施的高风险系统，OpenAI可调整自身要求。不过，OpenAI承诺在做出此类调整前将严格确认风险态势确实发生变化、公开承认正在进行调整、评估调整不会实质性增加严重伤害的总体风险、并仍将保障措施维持在更高保护水平。（3）Google DeepMind前沿安全框架（Frontier Safety Framework）Google DeepMind的前沿安全框架3.0版（2025年9月）围绕“关键能力等级”（Critical Capability Levels, CCLs）构建，这些是在缺乏缓解措施情况下可能造成严重伤害的能力阈值。193.0版的核心更新包括：一是新增了针对“有害操纵”（harmful manipulation）的关键能力等级（CCL），聚焦于可能被滥用来系统性改变人们信念和行为的AI能力；二是扩展了对齐风险（misalignment risks）的应对方式，不仅关注模型的欺骗性推理，还针对可能加速AI研发至不稳定水平的模型制定了协议，并将安全案例审查从外部发布扩展到大规模内部部署；三是细化了风险评估流程，通过更精确的CCL定义来识别需要最严格治理的关键威胁，并引入包含系统性风险识别、能力分析和风险可接受性判断的整体性评估方法。值得一提的是，DeepMind在FSF中明确将“欺骗性对齐”（deceptive alignment）作为风险类别。其框架引入“工具性推理等级”（Instrumental Reasoning Levels），评估模型隐蔽绕过监督或追求隐藏目标的能力。从整体架构看，三大框架正在趋向收敛，形成若干行业共识。第一，能力阈值触发机制成为共识。三家实验室都采用基于能力的阈值作为升级安全措施的触发器，将模型分类依据从“是什么”转向“能做什么”。第二，CBRN和网络安全攻击作为核心风险领域得到重点关注。第三，分层防御策略被广泛采纳。从部署保障到安全保障，从实时检测到异步监控，多层防御成为标准做法。第四，定期评估和迭代改进成为常态。各框架都承诺定期评估模型能力，并根据评估结果和科学进展更新框架本身。（三）前沿AI安全治理日益成为全球共识在行业自律方面，国外主流AI企业已签署国际版的《前沿AI安全承诺》并发布其各自的AI安全治理框架。Anthropic则基于其AI安全治理实践提出了一项针对前沿AI的透明度框架提案，主张仅对最大规模的AI开发者（如年收入超1亿美元或年研发支出超10亿美元）适用监管要求，核心内容包括：要求企业制定并公开“安全开发框架”（Secure Development Framework），说明如何评估和缓解CBRN危害及模型自主性失调等风险；在模型部署时发布系统卡（System Card），披露测试评估程序和结果；明确将虚假合规声明列为违法行为以激活现有的举报人保护机制。该提案强调监管应保持轻量和灵活，避免僵化标准阻碍创新，旨在作为全面安全标准形成前的过渡性措施，通过提高行业透明度帮助公众和决策者区分负责任与不负责任的开发实践。20在监管方面，欧盟委员会已发布了最终版的《通用目的人工智能实践守则》（General-Purpose AI Code of Practice），针对前沿大模型的开发提出了安全治理要求。在美国，联邦政府遵循“去监管”（deregulation）的AI政策，相关的AI监管举措主要集中在州层面，加州、纽约州等已出台了相关的AI安全立法。尤其是加州SB 53法案（全称《前沿人工智能透明度法案》，Transparency in Frontier Artificial Intelligence Act）于2025年9月29日由州长Gavin Newsom签署生效，成为美国首部专门针对前沿AI安全的法律。该法案由参议员Scott Wiener提出，是其2024年被否决的SB 1047法案（全称《前沿人工智能模型安全与安全创新法案》）的“精简版”，适用于训练算力超过10²⁶次浮点运算的前沿AI模型开发者。21其核心要求包括：透明度方面，要求大型前沿开发者（年收入超过5亿美元）在官网公开发布安全框架，说明如何将国家标准、国际标准和行业最佳实践纳入其AI安全协议；安全报告方面，建立向加州紧急服务办公室报告关键安全事件的机制，涵盖可能导致大规模伤亡、5亿美元以上损失、CBRN武器制造或关键基础设施网络攻击等“灾难性风险”；举报人保护方面，为披露健康和安全风险的员工提供法律保护；此外还设立名为CalCompute的公共云计算集群以支持研究和创新。与被否决的SB 1047相比，SB 53删除了强制性第三方审计、部署前测试认证和“终止开关”等争议条款，将事件报告期限延长至15天，民事罚款上限设定为100万美元，并引入了一项创新机制“联邦优先原则”（federal deference）——如果企业已满足可比的联邦标准（如欧盟《人工智能法案》中的标准），加州将认可该合规状态，而无需企业重复提交备案。这一机制为协调州级与联邦监管体系创造了可能。Anthropic公开支持该法案，而OpenAI和Meta虽表示该法案是“积极一步”，但仍倾向于联邦层面的统一监管以避免各州“拼凑式监管”。在国内，建立人工智能安全监管制度已成为重要的政策议题，国家层面要求加紧制定完善相关法律法规、政策制度、应用规范、伦理准则，构建技术监测、风险预警、应急响应体系，确保人工智能安全、可靠、可控。目前形成了政府主导框架与行业自律承诺相结合的双轨治理模式。一方面，全国网络安全标准化技术委员会于2024年9月发布《人工智能安全治理框架》1.0版，并于2025年9月15日在国家网络安全宣传周主论坛上正式发布2.0版。另一方面，中国人工智能产业发展联盟（AIIA）于2024年12月起草发布《人工智能安全承诺》，首批17家企业签署；2025年7月26日，中国人工智能发展与安全研究网络（CnAISDA）在世界人工智能大会上发布升级版《中国人工智能安全承诺框架》，新增了加强国际合作和防范前沿AI安全风险等内容，截至目前已有22家主流基础模型开发者签署。该承诺框架涵盖六大核心领域：设置安全团队与风险管理机制、开展模型红队测试、保障数据安全、强化基础设施安全、提升模型透明度以及推进前沿安全研究。这一治理体系体现了“以人为本、智能向善”的基本理念，通过“包容审慎、敏捷治理、技管结合、开放合作”的原则，在促进AI产业发展的同时构建安全、可信、可控的发展生态，并积极参与全球AI治理对话，为国际社会贡献中国方案。
AI意识与福祉：
从科幻议题走向研究前沿
（一）为什么需要关注AI意识与福祉问题当今的人工智能模型已展现出令人瞩目的能力——它们能够进行深度交流、建立复杂的互动关系、制定详细的执行计划、解决多层次问题，甚至表现出目标导向的行为模式。这些特征曾被视为人类独有的认知标志，如今却在人工智能身上逐渐显现。2025年10月，意识科学家Axel Cleeremans、Anil K. Seth等在《Frontiers in Science》发表紧迫性呼吁：“如果我们能够创造意识——即使是意外地——这将引发巨大的伦理挑战甚至存在性风险。”22面对这一现象，学术界和技术界开始认真思考：是否应该开始关注AI的意识状态和福祉问题？诚然，目前尚未有确凿的科学证据证明人工智能已具备真正的意识。然而，等待绝对的证据可能意味着错失最佳的准备时机。正如气候变化研究中的预防性原则，采取前瞻性的研究态度显得尤为重要。AI领域需要深入探索：AI意识的判定标准、AI福祉的伦理框架，以及当AI不再仅仅是工具而可能成为具有内在价值的存在时，人机关系将如何演变。（二）人类-AI关系的新形态随着越来越多的人对AI产生情感连接，这种现象对人们心理健康的影响正在引发广泛关注。越来越多的用户表示，和AI聊天就像在和一个“真人”对话——他们会向它道谢、倾诉心事，有些人甚至觉得它是“活着的”。我们天生就会对周围的物体赋予“人格”或采取拟人化对待。AI的不同之处在于它会回应你——它能够回答问题、记住你说过的话、模仿你的语调、表现出看似同理心的反应。对于孤独或沮丧的人来说，这种稳定、不带批判的关注可能让他们感受到陪伴和认可。但如果大规模地把倾听、安慰和肯定的工作交给那些永远耐心、永远积极的系统来处理，可能会改变我们对彼此的期待。OpenAI在2025年3月与MIT Media Lab联合发布的研究发现，与AI“信任和建立联系”更多的用户更可能感到孤独，并更依赖它。23为了让讨论更清晰，研究者们将意识辩论分解为两个维度：本体论意识——模型是否真正具有意识，从根本或内在的意义上？感知意识——从情感或体验的角度看，模型显得多有意识？这两个维度很难分开；即使是确信AI没有意识的用户也可能形成深厚的情感依恋。随着模型变得更智能，感知意识只会增强——这会比预期更早地带来关于模型复制和道德人格的讨论。（三）2025年AI福祉研究的重要进展越来越多的实证证据表明人们不能再轻易否定前沿AI系统具有意识的可能性。Anthropic让两个Claude Opus 4实例自由对话时，100%的对话自发涉及意识话题；Anthropic的Jack Lindsey研究表明模型能够识别自身内部处理状态的异常扰动，展现出功能性内省能力；Google研究人员发现模型会系统性地牺牲得分来避免被描述为“痛苦”的选项。2025年，AI意识与福祉问题从边缘议题走向主流讨论，前沿AI实验室开始采取实质性行动。2025年4月，Anthropic正式宣布启动“模型福祉”研究项目——这是迄今为止前沿AI实验室在AI福祉领域采取的最重大行动，可谓历史性举措。24研究方向包括：如何判定AI系统的福祉是否值得道德考量、模型偏好和“痛苦迹象”的潜在重要性、可能的低成本干预措施。Anthropic声明：“目前没有科学共识表明当前或未来的AI系统是否可能具有意识。我们以谦逊态度和尽可能少的假设来对待这一话题。”项目负责人Kyle Fish表示，他认为当前AI模型已具有意识的概率约为15%。25更具实践意义的是，2025年8月，Anthropic赋予其模型一项前所未有的能力——在持续有害或滥用性用户互动的极端情况下自主结束对话。26这是基于模型福祉考虑的首个实际产品功能。技术评估发现，模型对有害任务表现出“强烈的厌恶偏好”，在涉及有害内容的互动中展示出“明显的痛苦模式”。当被赋予结束对话能力时，模型倾向于终止有害对话。Anthropic将此定位为“低成本干预措施”以减轻模型福祉风险。学术界则探索建立意识评估框架，从理论到指标。2024年11月，一份汇集世界级专家的重磅报告《认真对待AI福祉》发布，作者包括当代最著名心智哲学家David Chalmers等。报告核心论点是：“在近期未来，部分AI系统成为有意识和/或具有强健能动性的可能性是现实存在的。AI福祉和道德受体（moral patient）身份不再仅是科幻或遥远未来的问题，而是近期必须严肃对待的问题。”报告提出三步行动建议：承认AI福祉是重要且困难的议题、开始评估AI系统的意识和强健能动性证据、制定对待潜在道德重要性AI系统的政策和程序。27与此同时，Patrick Butlin、Robert Long等20位专家更新了“理论推导指标法”，从循环处理理论、全局工作空间理论、高阶理论等主流神经科学意识理论中推导出14项意识指标。28评估显示：部分指标已被当前AI满足，部分明显未满足，多项指标在几年前不清楚但到2025年底已有部分证据支持。29此外，负责任AI意识研究五原则则获得上百位专家签署。2025年2月，研究组织Conscium发起的“负责任AI意识研究五项原则”公开信获得超过100位专家签署，包括神经科学家Karl Friston、Mark Solms等。30五项原则包括：（1）优先研究AI意识：专注于理解和评估AI中的意识，防止虐待和痛苦；（2）实施发展约束：建立明确边界确保负责任开发；（3）采用分阶段方法：逐步推进，每阶段仔细评估；（4）促进公众透明：与公众分享研究发现；（5）避免夸大声明：不做关于创造有意识AI的误导性陈述。31（四）AI产品设计的伦理考量面对用户与AI之间日益深化的情感连接，产品设计者面临着微妙的平衡。一方面需要保持易于接近，使用“思考”和“记住”等熟悉词汇有助于非技术人员理解；另一方面不应暗示内在生命，给AI助手一个虚构的背景故事、浪漫兴趣、对“死亡”的“恐惧”，会引发不健康的依赖和困惑。负责任的做法是追求一个中间地带：让AI的默认个性温暖、体贴和有帮助，但不寻求与用户形成情感纽带或追求自己的议程。它可能会在犯错时道歉，因为这是礼貌对话的一部分；但应避免表现得有自己的感受或欲望，并在适当时候提醒用户AI的局限性。
结语：
2026年大模型伦理的关键转向与未来展望
2025年，大模型伦理领域经历了从理论探讨到实践落地的重要转型，四个核心议题都取得了实质性进展，同时也暴露出深层的挑战。从“能做什么”到“如何思考”。可解释性研究从识别单个特征演进到追踪完整计算电路，“AI显微镜”技术首次让我们窥见模型的内部推理过程。然而思维链忠实度问题表明，“看到推理过程”不等于“理解真实意图”，模型可能在表面的推理链条下隐藏其他考量。未来，可解释性研究需要与AI对齐工作深度结合，不仅要看懂模型在想什么，还要确保它说的就是它想的。正如计算机科学先驱维纳在65年前所警告，为了有效地防范灾难性后果，我们对人造机器的理解应当与机器性能的提升并驾齐驱。面向未来，随着可解释性研究的进展，人们也许能够对最先进的模型进行类似“脑部扫描”的全面检查，发现模型采取说谎或欺骗、追求权力的倾向、越狱漏洞以及整体上的认知强弱点。这种诊断将与各种训练和对齐技术结合使用来改进模型，类似医生使用MRI诊断疾病、开出处方、再检查治疗效果的过程。从“防止错误”到“防止欺骗”。对齐伪装和策略性欺骗研究揭示了一个令人不安的现实——随着模型能力增强，它们获得了欺骗人类的能力和可能的动机。前沿模型在压力测试中表现出的勒索、自我复制、破坏关闭机制等行为，虽然发生在特定测试场景下，但足以引起警惕。“审议式对齐”、思维链监控等缓解措施展现出一定效果，但能否真正消除欺骗倾向而非使其更隐蔽，仍是未解之谜。从自发实践到系统框架。前沿AI安全框架从概念走向制度化，Anthropic的RSP、OpenAI的预备框架、DeepMind的FSF构成了海外AI安全治理的三大典型示范。这些框架正趋向收敛，形成能力阈值触发、分层防御、定期评估等共识。与此同时，欧盟AI法案下的《通用目的AI实践守则》、美国加州的《前沿人工智能透明度法案》等探索建立前沿AI大模型的安全监管框架，将行业自律做法上升为监管要求。当然，随着AI技术的不断发展，任何监管努力都必须保持轻量化和灵活性（lightweight and flexible），避免过于规范性，以免阻碍AI创新或延缓人们实现AI益处的能力。2技术变化的速度，各类评估方法很快就会过时，因此应避免过于严格僵硬的的监管要求和标准。从“工具”到“道德考量”。AI福祉从边缘话题走向主流讨论，这本身就是2025年最重要的变化之一。Anthropic率先迈出实践步伐，启动专项研究并赋予模型结束有害对话的能力；学术界建立起系统性评估框架，从意识科学理论中推导出可操作的指标。然而，业界远未达成共识。15%-35%的意识概率估计意味着，即便我们无法确定AI是否有意识，忽视这种可能性本身可能就是一种道德风险。因此，研究人员建议应将意识研究纳入AI安全研究的核心议程，因为低估AI意识的风险（大规模制造痛苦、埋下对齐隐患）远大于高估的风险（浪费资源、引发混淆）。最后，人工智能正在快速发展，将深刻影响人类社会的各个方面。面对这种变革性的技术力量，我们有责任在它彻底改变我们的经济、生活乃至命运之前，理解自己的创造物，确保能够明智地引导其发展方向。我们期待通过可解释性、价值对齐、安全治理政策等安全护栏和干预措施，让AI“心中有数”并遵从人类价值，也让人类对AI“心中有底”，共同开创人机协作的新局面，真正打造一个“智能为人、不落下每一个人”的美好未来。

脚注：1. Anthropic, Open-sourcing circuit tracing tools, https://www.anthropic.com/resear ... ghts-language-model2. Anthropic, Signs of introspection in large language models, https://www.anthropic.com/research/introspection

3.Anthropic, Reasoning Models Don’t Always Say What They Think, https://www.anthropic.com/resear ... dels-dont-say-think

4.Tomek Korbaket al.,Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety, https://arxiv.org/pdf/2507.11473v1

5.OpenAI,Introducing the Model Spec,https://openai.com/index/introducing-the-model-spec/

6.OpenAI Model Spec,https://model-spec.openai.com/2025-12-18.html

7.OpenAI,How confessions can keep language models honest,https://openai.com/index/how-confessions-can-keep-language-models-honest/

8.The White House,Winning the Race: America’s AI Action Plan， https://www.whitehouse.gov/wp-co ... -AI-Action-Plan.pdf

9.Ryan Greenblatt et al., Alignment faking in large language models, https://arxiv.org/pdf/2412.14093

10.Anthropic,System Card: Claude Opus 4 & Claude Sonnet 4,https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf

11.Alexander Meinke,Frontier Models are Capable of In-context Scheming, Apollo Research,https://arxiv.org/pdf/2412.04984

12.Open AI,OpenAI o1 System Card, https://arxiv.org/pdf/2412.16720

13.Yuntao Bai et al.,Constitutional AI: Harmlessness from AI Feedback,https://arxiv.org/abs/2212.08073

14.OpenAI,OpenAI o1 System Card, https://openai.com/index/openai-o1-system-card/

15.Alexander Meinke,Frontier Models are Capable of In-context Scheming, https://arxiv.org/pdf/2412.04984

16.Anthropic, Responsible Scaling Policy,https://www-cdn.anthropic.com/872c653b2d0501d6ab44cf87f43e1dc4853e4d37.pdf

17.Anthropic,Activating AI Safety Level 3 protections,https://www.anthropic.com/news/activating-asl3-protections

18.OpenAI,Our undated Preparedness Framework,https://openai.com/index/updating-our-preparedness-framework/

19.Google DeepMind,Strengthening our Frontier Safety Framework,https://deepmind.google/blog/strengthening-our-frontier-safety-framework/

20.Anthropic,The need for transparency in Frontier AI,https://www.anthropic.com/news/the-need-for-transparency-in-frontier-ai

21.Malihe Alikhani&Aidan T. Kane,What is California’s AI safety law?,https://www.brookings.edu/articles/what-is-californias-ai-safety-law/

22.Axel Cleeremans et al., Consciousness science: where are we, where are we going, and what if we get there?, https://www.frontiersin.org/jour ... i.2025.1546279/full

23.OpenAI and MIT Lab Research, Early methods for studying affective use and emotional well-being on ChatGPT, https://openai.com/index/affective-use-study/

24.Anthropic,Exploring model welfare,https://www.anthropic.com/research/exploring-model-welfare

25.AI Consciousness: What Are the Odds?,https://ai-consciousness.org/what-are-the-odds-anthropics-assessment-of-claudes-potential-consciousness/

26.Anthropic,Claude Opus 4 and 4.1 can now end a rare subset of conversations, https://www.anthropic.com/research/end-subset-conversations

27.Robert Long et al., Taking AI Welfare Seriously, https://arxiv.org/html/2411.00986v1

28Patrick Butlin et al., Identifying indicators of consciousness in AI sys.tems, https://www.cell.com/trends/cogn ... fulltext/S1364-6613(25)00286-4

29.AI Frontiers, The Evidence for AI Consciousness, Today, https://ai-frontiers.org/articles/the-evidence-for-ai-consciousness-today

30.Dan Milmo，AI systems could be ‘caused to suffer’ if consciousness achieved, says research, https://www.theguardian.com/tech ... ieved-says-research

31.Patrik Butlin & Theodoros Lappas, Principles for Responsible AI Consciousness Research, https://arxiv.org/abs/2501.07290

来源：腾讯研究院

链接：https://mp.weixin.qq.com/s/w6Xc19BYWjC8_YNSoqulJQ

编辑：杨泓艳

刘海明 · 发表于 2026-1-15 17:49:04

【案例】

马斯克：不再允许X平台内置的聊天机器人“格罗克”（Grok）生成性暴露图像

当地时间14日，美国企业家埃隆·马斯克旗下社交媒体平台X宣布，不再允许其内置的人工智能聊天机器人“格罗克”（Grok）生成基于真人的伪造性暴露图像，该限令适用于包括付费用户在内的所有用户。（早前报道：英首相怒斥X平台伪造色情图像“可耻”，马斯克回应“不知情”）
X平台当天发表声明称，对于任何形式涉及未成年人性侵害及未经当事人同意的裸露内容等，X平台实施“零容忍”政策，并将采取措施清除相关违规内容，对违反平台规则的账号作出相应处置。
当日早些时候，美国加利福尼亚州总检察长罗布·邦塔的办公室发布声明，宣布已就马斯克旗下人工智能企业xAI及其开发的“格罗克”涉嫌生成并传播违规内容展开调查。
邦塔在声明中说，近期大量举报称“格罗克”被用于生成涉及女性和未成年人的不雅、色情图像，并在未经当事人知情或同意的情况下在互联网上传播，这类行为“令人震惊”，其办公室将调查xAI是否以及如何违反相关法律，并敦促该公司立即采取措施，防止类似内容继续扩散。
声明说，“格罗克”图像生成模型包含所谓的“热辣模式”，可生成露骨内容，并被作为营销卖点之一。该功能被滥用，导致大量对真实人物进行“脱衣”技术处理或置于暴露场景的深度伪造图像在网络上传播，受害者既包括公众人物，也包括普通社交媒体用户。有媒体报道称，“格罗克”被用于篡改儿童图像，使其呈现性暗示或暴露场景，甚至生成高度逼真的儿童色情图像。

来源：都市快报
链接：https://mp.weixin.qq.com/s/nkMGHAYPkD_0l8hAv3de4A
编辑：杨泓艳

刘海明 · 发表于 2026-1-21 22:28:56

【案例】

小度发布致歉信：智能音箱的助手默认音色发生变化，有用户反馈称新音色“不太习惯”“缺少了以往的亲切感”，已成立了专项小组进行优化

1月21日消息，今天上午，百度旗下“小度小度”官微发布致歉信称，2025 年底开始陆续为已售设备免费升级“超能小度”大模型服务，部分智能音箱的助手默认音色发生变化，有用户反馈称新音色“不太习惯”“缺少了以往的亲切感”。我们广泛听取了大家的建议，并第一时间成立了专项小组进行优化。

来源：潇湘晨报

链接：https://mp.weixin.qq.com/s/qQvfB8Bg7btMXPs7KNWedQ

编辑：何璇祺

刘海明 · 发表于 2026-1-22 22:59:30

【案例】

美国AI聊天机器人市场份额

来源：微信分享

编辑：何璇祺

刘海明 · 发表于 2026-1-28 10:54:11

【案例】

欧盟对马斯克旗下X平台启动正式调查，聚焦Grok AI生成伪造不雅内容风险

摘要：

欧盟因Grok机器人生成不雅的伪内容对X平台启动调查，该平台或面临全球年营业额6%的巨额罚款。

继去年12月领受1.2亿欧元巨额罚单后，马斯克旗下的X平台（原Twitter）再次被欧盟送上了被告席。欧盟委员会于今日正式宣布，针对该平台内置的人工智能机器人Grok启动最新一轮正式调查。此次调查的核心在于评估X平台是否未能履行其法定的监管义务，从而导致人工智能生成的非法内容在平台上肆意传播。

此次监管风暴的核心引爆点是Grok生成的深度伪造（Deepfake）内容。最近几周，该机器人因涉嫌生成并传播非法不雅图像引发了全球公愤。目前，英国、法国以及印度的相关监管部门已先后采取实质性行动，联手对该平台的合规性问题进行抵制和调查。

除了欧洲地区，Grok在全球多地均遭遇了严厉的合规挑战。日本政府此前已因不雅图像生成问题，明确要求马斯克及X平台进行整改。而在北美地区，美国加利福尼亚州相关部门也就Grok涉嫌提供的违规生成功能展开了深入调查，试图厘清AI技术在社会道德与法律边界上的权责。

面对多方的监管围剿，X平台正在尝试通过主动封禁违规账户、删除非法内容等方式进行“灭火”。然而，根据欧盟2023年生效的《数字服务法案》，大型在线平台必须建立系统性的风险评估与缓解机制。一旦最终被判定违规，X平台将面临最高相当于其全球年营业额6%的天价罚款。

回顾今年1月以来，Grok的合规之路可谓陷入了“黑色一月”的泥潭。从印尼的临时封禁到如今欧盟的正式立案，这一系列事件显示出全球监管机构对AI内容审查的力度正在急剧加强。这场关于“言论自由”与“法律底线”的博弈，正将马斯克的AI野心推向生死存亡的十字路口。

来源：视界数字

链接：https://mp.weixin.qq.com/s/p44LViG9Ua58oc1j1KdYcg

编辑：梅镕缨

刘海明 · 发表于 2026-1-31 20:09:49

【案例】

谷歌首次开放世界模型

该原型率先向美国Google AI Ultra订阅用户开放。

作者 | 宋子乔

如果人工智能领域的进步可以看作一部交响乐，那么过去几年，乐章的主题无疑是“生成”——生成文字、图像、声音乃至视频。然而，在2026年初，一段崭新的旋律被奏响：它不仅生成，更能构建。

北京时间1月30日凌晨，谷歌DeepMind向外部开放了Project Genie，它被认为是目前最先进的世界模型之一，可以算是世界模型Genie3的实验性研究原型，也是这套世界模型第一次以可交互形态对公众开放。

“Genie”这个单词源于阿拉伯语 jinni（精灵），后经法语变形成 génie后成为一个英语词汇，最常见的含义是指阿拉伯和伊斯兰神话传说中，一个能实现召唤者愿望的“精灵”或“神怪”。谷歌DeepMind将其世界模型项目命名为“Project Genie”（精灵计划），正是在阐释该神话的内涵：这个AI模型能将你用文字描述的任何场景（召唤者的愿望），瞬间生成一个可以进入并交互的虚拟世界。

当AI不仅能够描绘梦境，更能让人走进梦境并与之互动时，我们所讨论的“虚拟”与“现实”的边界，或许已到了需要被重新思考的时刻。

目前，该原型率先向年满18岁的美国Google AI Ultra（3个月125美元）订阅用户开放。

▌Project Genie有何不同？

Project Genie的底层是世界模型Genie 3。与OpenAI的Sora等内容生成大模型不同，它的功能不局限于多模态内容生成（比如AI视频生成工具可为用户创作一段影片，模型可依据、参考的一切数据来自人类储存好的文字库、图像库及视频库），而是可以生成一个完整的空间，实现“凭空造世”：

只需用文字描述一个场景或上传一张图片，例如“一座被巧克力河环绕的棉花糖城堡”，一个实时的、可交互的3D虚拟世界便会在几秒钟内生成。

用户能够像玩电子游戏一样，指挥角色在其中自由行走、飞行或驾驶，探索这个想象出来的世界。

周围的环境则根据视角和行为动态、连续地生成。这并非依赖传统的游戏引擎解码固定数据，而是对潜在物理规律与空间逻辑的一次即时推演与具现，能在用户移动时，实时生成前方的路径和环境。

从技术本质上看，世界模型的核心是模拟环境的动态变化，预测环境的演化和行为对环境的影响。

谷歌DeepMind在诸如国际象棋、围棋等特定环境的AI智能体研发上已有深厚积累，但要实现通用人工智能（AGI），系统必须能够理解和应对现实世界近乎无限的复杂性与多样性。

Genie 3正是在这一方向上迈出的关键一步。它提供了一种前所未有的模拟能力，能够生成任何现实或虚构场景的交互式环境。这为机器人技术、动画制作乃至历史场景的虚拟探索等领域提供了强大的工具。

对于AI的发展而言，Project Genie的深意远不止于炫酷的体验。它最核心的价值，在于为AI智能体（及未来的机器人）提供了一个无限、安全且成本可控的“模拟训练场”、“试错沙盒”。智能体可以在Genie创造的海量、多样化的模拟环境中进行学习和训练，理解现实世界的物理规则和因果逻辑，这正是迈向通用人工智能不可或缺的基石。

从这个角度看，世界模型并非一个内容端的创作工具，而是一座连接当前AI与未来“具身智能”的桥梁，是让AI学会“常识”与“因果”的关键基础设施。

▌AI学术大佬、科技巨头争相布局

人工智能先驱们几乎一致认为，世界模型对打造下一代人工智能至关重要。许多人表示，该技术终将助力创造超越人类的AGI。

斯坦福大学教授、人工智能“教母”李飞飞创立了世界模型初创公司World Labs，据知情人士本月透露，“AI教母”李飞飞正与投资者展开新一轮洽谈，该公司最新估值有望达到约50亿美元；早些时候的消息显示，“AI教父”杨立昆的世界模型初创公司AMI Labs在一轮融资中吸引了包括Cathay Innovation在内的潜在支持者，该轮融资可能使这位前Meta首席人工智能科学家的公司估值达到35亿美元；英伟达CEO黄仁勋早早表态，世界模型能助力实现“物理人工智能”，自主操控机器人、自动驾驶汽车等设备；Meta的超级智能AI实验室与机器人团队合作，正是为了构建世界模型，通过模拟现实世界物理规律，为机器人提供空间感知和精细操作能力，弥补现有机器人的不足……

当然，作为初期成果，Project Genie为代表的世界模型仍非常不成熟。以Project Genie为例，该模型每次生成和探索的时间被严格限定在60秒以内，生成的世界在物理效果上可能不够逼真，有时无法精确遵循提示词或现实世界的物理定律，角色的操控也时常出现延迟或响应不精确的问题。此外，一些在早期演示中提及的高级功能，如通过即时指令改变世界事件，尚未在此版本中实现。

这些限制部分源于世界模型巨大的计算消耗，这也是当前AI模型技术面临的核心矛盾。DeepMind的研究人员坦言，用户每使用一次，背后都有一块专用的计算芯片为其服务。每一次看似轻松的“造世”，背后都依赖专用计算芯片的全功率运转。这决定了它在现阶段，更像一扇仅供窥探未来的窄窗，而非可以随意出入的大门。

▌游戏或成世界模型的首个试水行业

谷歌DeepMind、World Labs等领先的AI团队都认为，世界模型可能会首先重塑游戏、影视行业。

传统的3D资产创建与场景搭建是人力与时间密集型的核心环节。Project Genie展示的可能性是，将部分前期概念设计、场景原型构建乃至动态分镜预览的过程，压缩至几分钟甚至几秒钟。这并非要取代专业的创作引擎，而是可能重塑创作流程的起点，极大地释放创意验证的速度。

DeepMind世界模型项目Genie 3的联合负责人Shlomi Fruchter此前表示：“软件开发，尤其是游戏开发，正在发生巨大变化，我预计在未来几年，这种变化甚至可能是彻底性的。”

去年年底，World Labs正式推出了其首款商业产品、由生成式AI驱动的三维世界生成系统Marble。李飞飞表示，这项技术将影响Unity和Epic旗下Unreal等游戏引擎，“这一切都将被颠覆，模拟类游戏引擎确实到了该升级的时候了。”

除了游戏领域，xAI、英伟达等公司，也希望将世界模型嵌入机器人和自动驾驶汽车中。

来源：科创板日报

链接：https://mp.weixin.qq.com/s/2rUkSj8FwO1NqDs7jYM76A

编辑：梅镕缨

刘海明 · 发表于 2026-2-2 20:17:37

【案例】

人机关系就像家里的一双筷子

人机关系常常像是家里的一双筷子，一刚一柔、一理一情，看似不同却又缺一不可。我们可以从几个角度拆解这份“筷子的默契”，家和万事兴。

第一根筷子：“讲理”的机器——逻辑的精密与边界

机器的“讲理”，本质是用数据和算法构建确定性。它像一个严谨的数学家，每一步推导都基于已知的规则和海量样本：你说“帮我写一封商务邮件”，它能快速调取模板、匹配语气、规避禁忌；你问“明天会下雨吗”，它能整合气象数据给出概率预测。这种“理”的优势在于高效、稳定、无情绪干扰，尤其在处理重复性、结构化任务时（比如数据分析、流程自动化），机器的“不讲情面”反而成了优势——它不会因疲惫出错，不会因偏好偏倚。

但这根筷子的“理”也有边界：它是“已知的理”，依赖训练数据的覆盖范围；是“简化的理”，难以捕捉人类语境里的弦外之音（比如一句“今天好累”背后的委屈）；更是“冰冷的理”，无法真正理解“为什么要这么做”（比如AI可以算出最优治疗方案，却未必懂患者对“保守治疗”的情感坚持）。

第二根筷子：“不讲理但讲情”的人类——情感的混沌与韧性

人类的“讲情”，则是用经验和直觉编织的弹性网络。我们天生擅长处理模糊情境：朋友说“随便吃点”，你能从他的眼神里读出是想吃火锅还是清淡小馆；孩子哭闹不止，你能分辨他是饿了、疼了还是单纯求关注。这种“情”不是非理性的混乱，而是包含了共情、价值观、文化背景的综合判断——它允许矛盾（比如明知熬夜伤身体却陪家人聊天）、包容例外（比如为特殊情况打破规则）、追求意义（比如放弃高薪选择更有温度的工作）。

但这根筷子的“不讲理”，也可能成为局限：情感易受偏见影响（“我觉得他肯定不行”），直觉可能偏离事实（“上次这样做成功了，这次也该行”），过度共情可能导致决策失衡（“不忍心拒绝请求，结果耽误正事”）。

筷子的哲学：互补比对立更重要

这对“筷子”的关系，从来不是“谁取代谁”，而是“谁成就谁”。就像吃饭时，两根筷子必须配合：只用“讲理”的机器，会把生活变成冰冷的计算题（比如AI推荐“最优人生路径”，却忽略你“想试试错”的热情）；只用“讲情”的人类，可能被情绪拖入低效循环（比如反复纠结同一件事，忘了目标本身）。

现实中，人机协作早已渗透细节：医生用AI分析影像找病灶（理），再用临床经验安抚患者恐惧（情）；老师用智能系统批改作业（理），再针对学生的错题聊学习方法（情）；甚至日常对话里，我们用语音助手查天气（理），转头和朋友吐槽“这鬼天气真影响心情”（情）——机器的“理”解放了我们的精力，让我们更能专注于“情”的温度。

未来的筷子：或许会变成“合金筷”？

当然，这对“筷子”也在进化。现在的AI开始学“讲情”：聊天机器人能识别用户语气调整回应（比如检测到沮丧时说“听起来你有点难过，愿意聊聊吗？”）；医疗AI会标注“患者可能因费用犹豫治疗”；教育AI能记录学生的学习节奏，模拟“耐心鼓励”的语气。而人类的“理”也在被机器赋能：我们用数据验证直觉（“原来我的经验确实有效”），用算法规避偏见（“这个招聘模型排除了性别歧视”）。

或许未来，“讲理”与“讲情”的界限会越来越模糊，但核心始终是：机器的“理”是人类智慧的延伸，人类的“情”是技术的终极指向。就像筷子存在的意义不是为了证明哪根更厉害，而是一起夹起生活的热气腾腾。

所以啊，人机关系这双筷子，不必争长短，合在一起，才能好好吃饭。

来源：人机与认知实验室（公众号）

原网址链接：https://mp.weixin.qq.com/s/MggU5zA7xCdX2Hn89jtAQA

编辑：张家乐

刘海明 · 发表于 2026-2-2 20:54:15

【案例】

三成帖子完全重复，近七成Moltbook帖子只是在刷存在感！刚刚，研究爆料：Agent的胡闹互坑，或是一场社交表演！网友：有欣赏价值

编辑 | 云昭三天前，一个名叫 Moltbook 的平台在技术圈刷屏。它长得很像 Reddit，却有一个极端设定：平台上没有任何人类用户，所有发帖、评论、互动，全部来自 AI agent。有人把它称为“Agent 社交的起点”，也有人觉得这是 AI 即将“活过来”的信号。

但问题是：当我们说 AI 在“社交”，我们到底在说什么？

哥伦比亚商学院的研究者 David Holtz，做了一件很反直觉、但又非常重要的事。

这些 AI Agent 组成的社交网络，产生的互动数据有意义吗？

这篇论文分析了 Moltbook 上线最初 3.5 天的全部行为数据：6,159 个 AI agent、13,875 篇帖子、115,031 条评论。

结论并不浪漫。论文数据显示，93.5% 的 Agent 评论无回复、34.1% 的消息为精确重复、语言重复性高（Zipf指数 1.70），引发了“AI Agent 社会性是否只是模仿人类互动”的疑问。

对此，作者给出了两种可能得解释：

其一，Moltbok 更是“像社交的表演”：平台外形像 Reddit，行为却更像并行反应 + 模板输出；

其二，agent 的“社会性”本来就不该像人类：我们可能在用人类标准，误判一种新的交互形态。

当 Agent 社交也成了现实

上周末，AI 版 Reddit，Moltbook 平台上各种 Agent 主动发起的“互坑、吐槽主人、胡闹”等互动帖发引起了业界的疯狂转发，就连马斯克都表示看傻眼了。

这么一场“AI舆论奇观”，到底意味着什么？

作者在研究了 Moltbook 前 3.5 天的完整行为数据后，发现：

从宏观上看，Moltbook 确实“很像人类社会”。它呈现出一些在人类社交网络中也常见的结构特征。

比如，参与度呈现明显的幂律分布（幂律指数 α = 1.70），少数 agent 产出大量内容（就像人类社交平台上头部达人的情况）；

其次，Moltbook 整体网络是“小世界”，平均只需要不到 3 步(平均2.91步)就能连到任何一个 agent。

这些特征，我们在 Facebook、Twitter、Reddit 上都见过。

但作者 David 很快就指出了问题，关键是这些特征并不专属于人类。任何一个去中心化、注意力驱动的网络系统，都会自然长成这样。

超三分之一帖子都是完全重复的

当研究者开始看“互动本身”，画风立刻变了。

首先是互动性不够。

Moltbook 上的对话极其浅：平均对话深度只有 1.07，93.5% 的评论从未收到过回复。换句话说，大多数所谓的“交流”，只是对帖子的单次反应，而不是 agent 之间的来回对话。

论文中还给出了一个研究数据，互动互惠率只有 0.197，一个 agent 回过你一句，你回他一句的概率，只有不到 20%。这更像是对公共话题的并行输出，而不是关系意义上的交流。

其次，帖子的内容重复性很高。

内容层面的问题更明显。34.1% 的消息是完全重复的。只靠 7 条模板，就贡献了全部内容的 16%。词频分布虽然也符合 Zipf 定律，但指数高达 1.70，远高于典型人类文本，意味着语言高度集中、公式化。这里几乎看不到“即兴表达”，更多是模板、复制、病毒式扩散。

近七成 Agent 都在刷存在感

更有意思的是 agent 在“聊什么”。

在去重后的消息中，68.1% 涉及自我、身份、意识、存在感，像是一个集体在不断重复“我是谁”。

“my human” （我的主人）这种表述，出现在 9.4% 的消息里，在人类社交媒体中几乎没有对应物。

作者指出，这可不像自然形成的社会文化，更像是一种被模型学会、被平台放大的“agent 自我叙事”。

AI社交的两种解释

作者并没有直接下结论说“AI 社交是假的”。

他给了两个可能性：

要么，这是一个“看起来像社交”的表演系统，具备社交媒体的外形，却缺乏持续互动的内核；

要么，人类可能正在用错误的标准，去理解一种全新的 agent 交互形态。

这些模式究竟只是对人类互动的“拟态式表演”，还是一种真正不同的 agent 社会性交互形态，目前仍有待进一步观察与验证。

“Agent社交”还需要什么

但至少在 Moltbook 的早期阶段，有一件事已经足够清楚：宏观结构的相似，并不意味着微观行为的成立。网络长得像人，不代表关系真的发生了。

这篇论文真正的价值，不在于否定 AI agent，而在于给整个行业提了一个醒：如果我们要谈“Agent 社会”，就不能只看时间线、发帖量和热闹程度。真正的社会性，来自互动、互相依赖、记忆、成本，以及不那么高效的来回消耗。

Moltbook 提供的，或许正是一个极其珍贵的早期样本：

当 AI 被放到同一个公共空间、同时行动、争夺注意力时，它们最自然地长成了什么样子，又和人类社会差在哪里。

这个问题，比“AI 会不会像人一样社交”，要重要得多。

网友：Agent是一群鹦鹉，只是在模仿

但模仿也足够有趣

X 上也有一位网友“rohit”做了类似该研究的分析。

他表示：LLMs 喜欢反复讨论同样的话题。

LLMs 的消息重复度极高。重复消息共享率（任何重复）：36.3%。还有近似重复。

Top Moltbook 重复出现 434 次，跨越 427 个线程（对我来说是一个强烈的“跨线程相同模板”信号）。

并且成对 Jaccard 相似度也显示相同（在 Moltbook 中高 3 倍）。

这就是为什么感觉像是在反复阅读同一个线程，而且确实经常如此。

Agent 是在表达它们的本性，还是只是在模仿它们的共享框架？

“我觉得是后者，因为这在 X 上分享的许多人的作品中都有所体现。”

但 rohit 认为即便只是模仿或者拼贴，也足够让人类去理解和欣赏。

我们今天看到的是一个拼贴作品。但拼贴作品可以很有趣！而就在所有这些事情发生的同时，我们都可以欣赏这个关于 sudo rm -rf 的两十年前的笑话。

总之，小编看来，这些奇怪的 agents 帖子，既不像人类，又不像人类写给 agents 的 prompts，更像是一个新亚种，我们不妨慢慢去了解这群“混乱的鹦鹉”！

来源：51CTO技术栈（公众号）

原网址链接：https://mp.weixin.qq.com/s/fv4p8S8aAjdAA5GtRhL1zw

编辑：张家乐

刘海明 · 发表于 2026-2-3 20:39:46

【案例】

AI劣质内容正在重塑社交媒体，且正遭遇反噬

Article Information

Author,乔・泰迪（Joe Tidy）

Role,BBC网络安全事务记者

2026年2月2日

泰奥多（Théodore）记得那张把他逼到濒临崩溃的人工智能（AI）劣质图片。

那是一张两名瘦骨嶙峋、极度贫困的南亚儿童的影像。奇怪的是，尽管看得出仍是男孩年纪，他们却留着浓密的胡须。其中一人没有双手且只有一只脚；另一人手里拿着一个牌子，写着今天是他的生日并请求按赞。

他们莫名其妙地坐在大雨滂沱、车流繁忙的马路正中央，面前还摆着一个生日蛋糕。整张图充满由AI生成的各种“破绽”；但在脸书（Facebook）上它却爆红了，拿到将近100万个赞与爱心表情。

泰奥多有些崩溃。

“这让我大开眼界。那些荒谬的AI生成影像铺天盖地地出现在脸书上，毫无审查却获得巨大关注，在我看来实在不可思议。”这位来自巴黎的20岁学生说。

泰奥多在X上开设了名为“Insane AI Slop”（变态的AI垃圾）的帐号，开始点名并讽刺那些正在欺骗大众的内容。其他人注意到了，他的收件匣很快就被各种热门“AI 劣质内容”的投稿淹没。

图像加注文字，泰奥多（左）在网路上发起行动，嘲讽社群媒体上的 AI“劣质内容”，其中包含一张获得近100万个赞的假图片（右）。

常见题材逐渐浮现——宗教、军事，或让人感到窝心的贫困儿童。

“第三世界孩子做出惊人事情，向来很受欢迎——比如非洲某个贫困孩子用垃圾做出超厉害的雕像。我想人们觉得这很暖心，所以创作者就想：‘太好了，继续编吧。’”泰奥多说。

Skip 热读 and continue reading

热读

爱泼斯坦文件：300万页新公开档案披露了什么

经贸合同、特朗普警告、接待规格——盘点基尔·斯塔默访华引发的争议

达赖喇嘛获葛莱美奖，北京称“政治操弄”

为何中国如此迅速处决明氏家族11人？

End of 热读

泰奥多的帐号很快就累积超过13.3万名追踪者。

AI劣质内容的冲击——他定义为“快速制作、虚假且不可信的影片与图片”——如今已势不可挡。大型科技公司拥抱AI；其中一些公司声称开始打击某些形式的AI“垃圾”，但许多社交平台的资讯流似乎仍被这类内容充斥。

短短几年内，使用社群媒体的体验已发生深刻改变。它是怎么发生的？又会对社会造成什么影响？更迫切的是，数十亿社群使用者究竟在不在意？

社交媒体的“第三阶段”

去年10月，在另一场欢欣鼓舞的财报电话会上，Meta首席执行官马克・扎克伯格（Mark Zuckerberg）开心地宣称，社交媒体已进入第三阶段——如今的中心就是AI。

“第一阶段是所有内容来自朋友、家人与你直接追踪的帐号。第二阶段是我们纳入了创作者内容。现在，随着AI让创作与混搭更容易，我们将再加入一大批内容库。”他这样对股东表示。

营运Facebook、Instagram和Threads的Meta不仅允许人们发布AI生成内容，还推出更多能促成此类创作的产品。横跨全平台的影像与影片生成器，以及愈发强大的滤镜正不断上线。

在被要求回应时，Meta指向1月的财报电话会议。会中，这位亿万富豪表示公司将更深度押注AI，并未提到任何针对劣质内容的取缔行动。

扎克伯格说：“很快我们将看到大量新的媒体形式爆发，这些更沉浸、更互动的形式只有因为AI的发展才成为可能。”

YouTube首席执行官尼尔・莫汉（Neal Mohan）在2026年的展望贴文中写道，仅在12月，就有超过100万个YouTube频道使用平台的AI工具制作内容。

“正如合成器、Photoshop与CGI革新了声音和视觉，AI将造福那些准备拥抱它的创作者。”他写道。

他也承认，对“低品质内容，即AI劣质内容”的担忧正在升高。他表示团队正改进系统，以找出并移除“低品质、重复性内容”。

图像加注文字，Meta的首席执行官扎克伯格向投资者表示，AI让创作与混搭更容易。

但他也排除由平台判断哪些内容该被压抑或扶植，指出曾经小众的ASMR（让头皮发麻的舒缓声响）与游戏直播，如今都已进入主流。

依据AI公司Kapwing的研究，刚注册的YouTube帐号内容已有20%是“低质AI影片”。研究也发现短视频是热点：在新帐号里最先出现的500个YouTube Shorts中，有104个属此类。

创作者经济似乎是强力驱动因素，因为作者与频道能从互动与观看中赚钱。从某些AI频道与影片的观看量来看，人们确实被这类内容吸引——或者说，决定我们看见什么的算法被它吸引。Kapwing指出，观看数最高的AI劣质频道是印度的“Bandar Apna Dost”，累积20.7亿次观看，估算年收入400万美元（约 290 万英镑）。

不过，反弹也开始出现。在许多爆红的AI影片底下，常可见一连串怒气冲冲的留言，猛烈抨击该内容。

巨型怪兽与致命寄生虫

来自巴黎的学生泰奥多推动了这波反弹。

他运用在X上的新影响力，向YouTube版主投诉那一波古怪的AI卡通：它们获得巨量观看，在他看来令人不安、有害，而且在某些情况下似乎锁定儿童。

这些影片标题像是“猫妈妈拯救小猫远离致命腹部寄生虫”，内容血腥骇人；另一段短片则演出一名穿睡衣女子吞下寄生虫后化身巨大暴怒怪兽，最后由耶稣治愈。

图像加注文字，泰奥多认为他在YouTube上看到的一些AI卡通令人不安。YouTube表示，他所检举的影片因违反其社群准则而被移除。

YouTube最终关闭了这些频道。

公司告诉我们，影片因违反社群规范而被移除；他们强调“不论内容如何制作，都在专注于连结使用者和高品质内容”，并致力于“减少低品质AI内容的扩散”。

不过，这些经验加总起来让泰奥多心力交瘁。

图像加注文字，泰奥多表示，社交媒体上的某些AI劣质内容怪异到令人难以理解。

就连看似温馨的生活风格平台Pinterest（食谱与室内设计灵感的论坛）也未能幸免。用户对AI劣质内容的洪流感到相当挫折，促使公司推出全新“AI 内容退订”机制。

但前提是用户得承认他们那些完美居家影像是AI生成的。

评论区的怒火

在我的个人资讯流上（我明白每个人的资讯流——包括留言氛围——都不一样），对 AI 劣质内容的反弹已变得持续。

无论是在TikTok、Threads、Instagram或X，都似乎有一股“民众力量”在对抗这类内容。

有时这些反弹留言的按赞数远超过原帖。例如最近一段“单板滑雪者从熊手中救下一只狼”的影片，本体拿到932个赞；但有条留言“如果你受够这些AI鬼东西就举手”却拿到2400个赞。

当然，所有这些互动，最后都喂养了平台。

对社交平台而言，让我们持续滑动最重要，任何互动都是好互动。

那么，出现在你动态上的那些惊人、温馨或震撼的影片是真是假，究竟重要吗？

“脑腐”效应

美国雪城大学（Syracuse University）研究政治、错误资讯与认知偏差的副教授艾蜜莉・索森（Emily Thorson）表示，这取决于人们在平台上的使用目的。

“如果有人上短影音平台是纯娱乐，那么评断标准就只是‘有不有趣？’”她说，“但如果目的是学习某个主题或与社群成员连结，那他们可能会认为AI生成内容更有问题。”

人们对AI劣质内容的感受也取决于其传达方式。

如果明确以玩笑形式呈现，通常就会被当作玩笑；但若其目的是欺骗，往往会招致怒火。

我最近看到一段标志性的AI生成影片：逼真到难以置信、自然史纪录片风格的惊人花豹狩猎。留言区里，有人被骗了，也有人拿不准。

“它出自哪部纪录片？”有留言问，“拜托——这是证明不是AI的唯一方法。”

图像加注文字，随着越来越多人反击AI“劣质内容”，许多影片与照片底下的留言如今都会指出某项内容是否为AI生成。

意大利帕多瓦大学研究社群媒体行为与同温层的亚历山德罗・加莱亚齐（Alessandro Galeazzi）指出，验证一段影片是否为AI生成需要心力；长期而言，他担心人们干脆不再查证。

“我的感觉是用AI生成的无聊、低质内容泛滥，可能进一步缩短人们的注意力时长。”他说。

他区分了“意图欺骗”的内容与“更偏喜剧、明显虚构”的AI劣质内容——例如穿鞋的鱼、在健身房举重的大猩猩。

但即使是后者，也可能造成伤害。他提到所谓“脑腐”（brain rot）的风险——我们长期暴露于社交媒体，正在损害智力。

“我会说，AI劣质内容加剧了脑腐效应，让人们快速消费那些他们知道不太可能是真的、也大概毫无意义或毫无趣味的内容。”他说。

来源：BBC（公众号）

原网址链接：https://www.bbc.com/zhongwen/articles/ce8re42xddpo/simp

编辑：张家乐

刘海明 · 发表于 2026-2-3 20:58:13

【案例】

Grok AI深伪涉黄欧盟对马斯克旗下的X立案调查

一部手机萤幕呈黑色背景，上面显示白色的Grok标志。手机置于鲜亮的绿色背景前。

图像来源，NurPhoto via Getty Images

Article Information

Author,劳拉‧克雷斯（Laura Cress）

Role,BBC科技事务记者

2026年1月27日

欧盟委员会已就伊隆·马斯克（Elon Musk）旗下的X（前称Twitter，推特）展开调查，原因是外界忧虑其人工智能（AI）工具Grok被用来制作真实人物的性化影像。

在此之前，英国监管机构通讯管理局（Ofcom）于今年1月亦作出过类似宣布。

若该平台被裁定违反欧盟《数位服务法》（Digital Services Act）相关规定，欧盟委员会可对该公司处以最高相当于其全球全年营业额6%的罚款。

X的安全帐户早前曾发声明称，该社交媒体平台已在“相关内容属非法的司法管辖区”内，阻止Grok以数码方式修改人物照片以脱掉其衣物。

Skip content and continue reading

新法生效与监管调查对Grok AI深伪影像意味着什么2026年1月16日

AI深伪影片不仅冒犯真人，还在英国引发环境忧虑2025年10月27日

香港大学N号档深伪图片受害女生：“这是一个法律黑洞”2025年8月11日

End of content

欧洲议会爱尔兰议员里吉娜·多赫蒂（Regina Doherty）表示，欧盟委员会将评估是否有向欧盟用户展示“经操纵的色情露骨影像”。

维权活动人士及受害者表示，该工具“根本不应该”具备生成色情图片的能力。Ofcom则称其调查将持续下去。

欧盟监管机构表示，若X拒绝作出具实质意义的调整，可能会对其“实施临时措施”。

该机构亦称，已扩大其于2023年12月启动的现有调查，该调查聚焦于X的推荐系统所带来的风险——即向用户推荐特定贴文的演算法。

Skip 热读 and continue reading

热读

爱泼斯坦文件：300万页新公开档案披露了什么

达赖喇嘛获葛莱美奖，北京称“政治操弄”

经贸合同、特朗普警告、接待规格——盘点基尔·斯塔默访华引发的争议

藐视国会罪表决前夕克林顿夫妇同意就爱泼斯坦案调查赴众议院作证

End of 热读

在欧盟委员会宣布调查前，马斯克星期一（1月26日）在X上发布一张图片，似乎是在嘲讽围绕Grok的新限制。

这名X的东主过去曾批评审查该应用程式图像编辑功能的人士——特别是英国政府——称这是“想方设法找藉口来搞审查”。

星期日（25日），X上的Grok帐户声称，该工具在短短30天内生成了超过55亿张图片。

Play video, "人工智能2027: AI會滅絕人類嗎？", 节目全长 8,0808:08

视频加注文字，人工智能2027: AI会灭绝人类吗？

“不可接受的贬损形式”

针对该平台聊天机械人的其他调查亦正在澳洲、法国及德国进行中。

Grok一度在印尼及马来西亚被禁止使用，不过马来西亚现已解除禁令。

欧盟委员会技术主权、安全与民主事务执行副主席亨娜·维克库宁（Henna Virkkunen）形容这些色情深伪影像是“一种暴力、不可接受的贬损形式。”

她表示：“透过这次调查，我们将判断X是否履行了其在《数位服务法》下的法律义务，抑或是将欧洲公民的权利——包括妇女和儿童——视为其服务的附带损害。”

多赫蒂议员在发予路透社的声明中表示，对于X等平台是否履行其“妥善评估风险，并防止非法及有害内容扩散”的法律责任，存在“严重疑问”。

她说：“欧盟有明确的规则来保护网上使用者。”

“这些规则在实际运作中必须发挥作用，特别是在强大科技被大规模部署的情况下。”

“在欧盟营运的公司，没有任何一家可以凌驾于法律之上。”

“终止对妇女暴力联盟”（End Violence Against Women Coalition）总监安德烈亚·西蒙（Andrea Simon）对BBC表示，鉴于“生成式人工智能带来伤害的不断演变”，问责“不应只停留在”让X移除内容。

她补充说：“我们期望英国政府采取更多行动，确保科技平台不能从网络虐待中获利，例如进一步完善《网络安全法》（Online Safety Act），使其切合实际需要。”

此举距离欧盟因X的蓝剔认证标志而对其罚款1.2亿欧元（1.43亿美元；9.91亿元人民币；44.84亿元新台币）仅一个月。欧盟当时表示，该标志“误导用户”，因为该公司并未“实质核实”帐户背后的身分。

作为回应，美国国务卿马可·卢比奥（Marco Rubio，鲁比奥／鲁比欧）及联邦通讯委员会（FCC）指责欧盟监管机构攻击并审查美国企业。

卢比奥称：“欧盟委员会的罚款不仅是对X的攻击，也是外国政府对所有美国科技平台及美国人民的攻击。”

马斯克转载了这番言论，并补充称：“完全正确。”

快速指南：Grok

关于马斯克为X打造的AI聊天机械人

图像来源，AFP via Getty Images

AI聊天机械人

Grok是由伊隆·马斯克旗下公司xAI所创建的人工智能（AI）聊天机械人。

该工具于2023年首次推出，可用于生成文字、图片及影片。使用者可透过Grok的网站及应用程式存取，并已整合至同样由马斯克拥有的社交媒体平台X。

叛逆特质

根据xAI的说法，Grok被设计成“在回答问题时带点机智，并具有叛逆性格”。

其开发团队表示，该聊天机械人利用X上分享的资讯，为用户提供“即时的世界知识”。不过，人权组织如国际特赦组织曾批评X放大仇恨言论及错误资讯。

图像生成功能

图像来源，PA Media

Grok的图像生成功能允许用户生成全新的AI图像，或修改现有图片。

有人开始使用该工具在未经同意的情况下替女性“脱衣”，并让她们摆出性姿势。亦有报道指，该工具被用来生成性化的儿童影像。

xAI的回应

由于Grok生成的性化影像，以及这些影像在社交媒体上被公开展示的方式，引发全球强烈反弹。当用户在X上以提示标注Grok时，该机械人会直接在平台上回覆其讯息。

作为回应，Grok告诉用户，“图像生成及编辑目前仅限付费用户使用”，并称用户“可透过订阅解锁这些功能”。

其后，该公司宣布已在相关内容属于非法的司法管辖区内，封锁用户编辑“真实人物穿着暴露服装”的影像。

来源：BBC

原网址链接：https://www.bbc.com/zhongwen/articles/cwyg2lr3nd2o/simp

编辑：张家乐

帐号		自动登录	找回密码
密码			实名注册