AKP健食天

AI

AI有一些非常愚蠢的用法。例如,我试图在Etsy上找一个真正的裁缝,结果却一直找到这种东西……很明显,这不是一个真人……这也不是一件真正的裙子,那么如果我下单,我实际会收到什么?这个家伙变成了一个邪恶版的自己,还梳着一个令人意外的“丸子头”。这套服装以一种M.C.埃舍尔式的结构挑战了物理学,所以很明显,我花133美元收到的包裹里不会是这个。当人们指着这类东西说AI是一场革命时,我只会觉得……这太蠢了。所有资金都投入到人们并不真正想要的工具上,这似乎让AI成了一个泡沫。

但那个AI泡沫的愚蠢只是一个干扰。问题是,作为一个真正复杂的系统,AI很难向金融界的投资者解释清楚。这需要时间,而时间就是金钱。制造炒作的人抓住了最无趣的部分。但是,最近AI领域出现了一些真正能改变社会的发展,却因为那些无关的愚蠢炒作而无人关注。

我认识的一些非常聪明的人对AI相当不屑。我最近听到关于AI最常见的论点是:“AI远非人工智能,它只是一个愚蠢的工具,可能在某些非常特定的任务上表现不错,但仅此而已。让它处理新事物或超出其上下文的东西,它就会搞砸。”这个看法在两三年前是完全合理的,但这正在真正改变。

最近有一些发现改变了AI的使用方式,这对每个人来说都非常重要,因为它们将影响……每一个人。不幸的是,解释清楚大约需要12分钟。所以我会尽力而为。有炒作,但背景中也隐藏着未来,无论我们是否做好了准备。

五年前,理解AI效用的最佳方式是将其视为一种非常有效的信息存储和检索方式。这有点像一个装满书籍的硬盘比……一整个图书馆更小、访问更快。各种信息都以概念指纹或“嵌入”(embeddings)的形式存储在这些模型中。例如,美洲狮是一种包含大量信息的动物——在英语中,美洲狮有多个名字。模型可以将所有这些名字保存到同一个概念指纹中。美洲狮在其他语言中也有名字——这些也可以被保存。这有点像翻译任务的工作原理,当你想从英语翻译成法语时,Puma会映射到这个特定的指纹,然后检索出法语。美洲狮的其他方面也通过这个指纹与其他相似指纹的接近程度来保存。例如,美洲狮与猫的相似度比与香蕉的相似度更高。

三年前,这些模型从只处理文本,发展到开始整合图像、声音等其他“模态”数据,使其成为“多模态”模型。现在,美洲狮的图像、声音也都添加到了这个概念指纹中。你现在拥有了一个关于美洲狮的“柏拉图式理想”。

概念指纹的重要性在于,直接保存所有关于美洲狮的文本、所有图像、所有录音会非常昂贵。这不仅是巨大的数据存储量,而且当模型被查询时,筛选和给出回应也需要很长时间。概念指纹或“嵌入”只允许存储大致的轮廓和关键特征。这就是为什么你通常无法让模型生成一张非常具体的美洲狮图片或一段特定的文本引用,因为那不是被保存下来的内容。不过,如果某样东西足够常见,它也可能被“逐字记忆”。

当你听到“训练”这些模型的说法时,“训练”可能指的是将原始数据转换为这些嵌入的过程。例如,对于一个“视觉编码器”,我可能会输入一张美洲狮的照片,如果模型将其标记为香蕉,我会惩罚它,但如果它标记为美洲狮,它就会得到奖励。经过多轮训练,最终原始信息的混乱状态会组织成这些结构化的信息柏拉图式理想,这其实有点美妙。

尽管只存储概念指纹比存储每一个提到美洲狮的段落、每一张图片、每一个视频要便宜,但它仍然非常昂贵,因为这些概念指纹可能涵盖了互联网上的一切。

让我们用另一个比喻来形容概念指纹:视频游戏或动画电影的3D艺术模型。3D模型旨在表现被建模对象的视觉信息。你可以把AI模型的大小看作类似于3D模型的分辨率。最大的模型可能能够渲染出每一根毛发、眼睛里的光线反射、肌肉的张力。一个非常小的模型可能就像一个分辨率极低的猫,几乎认不出来是猫。非常大的模型很有趣,因为它们可以对真实事物有极高保真度的表现,但类似于一个高分辨率的精美猫咪,它们会非常慢且昂贵。如果你把你的精美猫咪放到一个视频游戏中,计算所有这些毛发应该如何随猫移动会非常昂贵,你的电脑需要进行大量计算,并且可能会卡顿。你的劣质猫咪移动起来会很流畅,但整体体验会——不怎么样。

“蒸馏”(Distillation)是指使用一个非常大的模型来创造一个更好版本的小模型。这个大的“教师”模型可以教导和提炼细节给一个更小的“学生”模型。你不是用你有限的分辨率去制作劣质猫咪,而是可以用同样的像素去制作一个“精妙”的猫咪。这只猫咪在你的视频游戏中渲染效果很好,同时也非常容易辨认出是猫,并且质量相当高。

过去几年发生的变化是,蒸馏技术正变得越来越好。更小、更便宜的模型在更多情境下变得更加可用,价格更实惠,质量也更高。蒸馏很好,这是一个非常酷的原则,但虽然它解决了一些AI在经济中普及的主要障碍,如成本和可行性,但它并没有解决最突出的问题,比如模型的“幻觉”和普遍的笨拙感,这些模型只是工具,只会不加批判地吐出回应。但是,蒸馏确实促成了一个巨大的飞跃。

你可能已经注意到了模型的一个怪癖。你问一个问题,它会给你一个回应,然后如果你问它这个回应好不好,它有时会……退缩,承认自己的错误,然后给你……一个新的回应。你可能会合理地问,如果它知道回应是错的或不好的,为什么不一开始就给我一个更好的呢?这是模式识别和真正理解之间的区别。没有特定的提示,模型默认情况下通常只会不加批判地“填空”。它只会从嵌入空间中提取信息,有时会出错,或捏造联系。但是,当你要求它们自我批判时,你是在要求一些不同的东西。

最近的一大进展是模型的“思考”,即让模型真正经历推理答案的中间步骤,而不仅仅是模式匹配一个看似合理的输出,而且这实际上效果很好。但单个模型思考的一个局限是,更大的模型仍然会做得更好,而运行更大的模型很昂贵。真正突破性的进展是将“思考”的力量和“蒸馏”的经济性结合到“代理式”(Agentic)模型框架中。Agentic只是agent的形容词,不是我起的名字。

为了理解代理式模型框架,让我们回到我们的3D模型比喻。假设我们想要渲染一个非常复杂的过程,比如一个香蕉面包工厂,因为我们想能够问关于系统不同部分的问题。如果我们有一个完美渲染工厂的庞大模型,我们或许可以问“机器在放入鸡蛋后会做什么?”,它会正确但非常昂贵地回答“它会摇晃它们”。如果我们有一个较小的模型——它可能只会对问题进行填空,说“它会打碎它们”,因为人们通常就是这么处理鸡蛋的。如果我们给模型加上思考能力,它可能会昂贵地回答“输入端连接到标记为‘摇晃’的部分,所以它会摇晃它们”。如果我们有一个非常便宜的模型,它会说“这是一个好问题,你真棒,我只是一个模型,我不知道如何回答你的问题,但如果我知道,那不是太棒了吗?”

那么……如果我们用多个“更便宜”的模型,让每个模型专注于系统的一部分——并有一些重叠呢?也就是“代理”(agents)。如果我们把它们都加入一个对话中,然后问那个问题。如果我们再加入几个额外的代理,例如,一个专门负责怀疑和捕捉其他代理产生幻觉的代理,一个在互联网上查找信息以验证其他代理说法的代理,一个组织讨论并确定何时达成最终答案的代理。

事实证明,这种“思想的编排”非常非常有效。每个单独的代理都是一个愚蠢的工具,是的,但在一起,特别是通过明确添加经过专门训练以发现自身错误的批判性代理,你突然可以得到非常有用的结果。一种协同效应,一种格式塔的涌现,如果你愿意这么说的话。

长久以来,人类和AI的区别在于,AI在信息检索方面显然更胜一筹——它存储了所有信息,但人类在解决问题、“跳出框框思考”、有用地主动行动方面要强得多。

这些新的代理式系统有能力真正解决旧的单一模型无法解决的非常复杂的问题。而且它们可以相当便宜地做到这一点,因为它们以一种方式进行蒸馏,即每个代理在其任务上都有相当高的分辨率,但同时也是它们所源自的那个非常非常大的模型所有学习的反映。这极其强大,其可能的使用方式绝非炒作。

这种代理式AI研究非常深刻,我却不怎么听到人们谈论它。我怀疑是因为每个人都被那些吵闹的白痴们制造的AI炒作所淹没,而且我们现在普遍有很多事情分散我们的注意力。但非常重要的是,你不要被那些无处不在的极其愚蠢的“AI”所分心,而错过了幕后新AI的到来。

这纯粹是我的个人观点,但我怀疑我们至今未看到“AI革命”的一个重要原因,很大程度上是因为所有这些大型AI公司都如此专注于投入大量资源以在AI竞赛中保持领先。当你在3个月后制造的任何东西都会过时时,为什么现在要制造产品呢?这并不意味着它不会到来,只是意味着当它到来时会更有效。

我经常听到的另一种说法是,“人类在x、y或z方面总会比AI强”,但即使这是真的,人类并不比AI便宜。我们生活在一个社会中,大多数企业都是基于财务运作的。如果一个人类能以90%的正确率完成一项任务,成本是最低工资,而一个AI能以60%的正确率完成任务,但每小时成本只有几美分,而且速度快得多。而且它们如此便宜,假设你有100个AI代理一起做同一个任务。如果你选择最好的结果,那成功率甚至能提高到80%。这仍然是一个相当明显的商业选择。

AI不仅仅是Snapchat滤镜和LinkedIn上生成的优质评论——“还有人厌倦了LinkedIn上的AI警察吗?我看到一个破折号——你就知道这是AI了。” “Gabe,我同意,我100%同意,谢谢分享,Gabe!”它能做非常有用的事情,也能做极其可怕的事情。它越来越不像一个基础工具,而更像一群特工,能够解决复杂的任务以实现其目标。而目标可能是帮助诊断和治疗慢性复杂疾病的患者,也可能是压制网络异议。

即使你个人无法影响AI的使用方式,理解、认识和为此做好准备也很重要,因为它无论你是否关注,都正在到来。

Everyone is wrong about AI hype

**[[https://www.youtube.com/watch?v=tE610X3weik|Everyone is wrong about AI hype]]**

Edit:2025.07.03

是的,可以这么理解。

您提供的这段英文文本,以及我整理后的翻译,其核心论点和逻辑链条确实是这样的。可以总结为以下几个关键点:

  1. 区分炒作与实质:作者首先指出,当前大众看到的很多AI应用(如Etsy上假的商品图)非常愚蠢,形成了“AI泡沫”的表象。但这只是干扰项,掩盖了真正深刻的技术进步。
  2. 解释AI技术演进
    • 嵌入(Embeddings):AI首先是高效的信息存储和检索工具,将概念(如“美洲狮”)存为包含多种信息(文字、图片、声音)的“概念指纹”。
    • 蒸馏(Distillation):为了解决大型模型昂贵且低效的问题,业界发展了“蒸馏”技术,即用一个强大的“教师模型”来训练出一个更小、更高效、但质量依然很高的“学生模型”,降低了AI的应用成本。
  3. 引出核心突破:代理式框架(Agentic Frameworks)
    • 作者认为,即便经过蒸馏,单个AI模型本质上仍是“愚蠢的工具”,容易出错(产生幻觉)。
    • 真正的革命性进展是将“思考”(让模型进行推理)和“蒸馏”结合,创造出代理式框架
    • 这个框架的核心思想是:让多个廉价、专精的AI“代理”协同工作。就像一个团队,有负责执行的、有负责监督纠错的、有负责查证的,它们共同完成一个复杂的任务。
  4. 得出结论与警示
    • 这种“思想的编排”让AI系统整体上变得非常强大和可靠,能解决单个模型无法解决的复杂问题,并且成本可控。
    • 作者认为,这才是AI真正的、即将到来的革命,其力量和影响远超当前炒作。
    • 最后,作者提醒大家,不要因为人类在某些方面更强就掉以轻心,因为在商业决策中,AI的成本效益优势是决定性的。人们需要认识并为这个即将到来的、由AI代理驱动的未来做好准备。

所以,您的理解是准确的。这段话的核心就是区分了大众视野里愚蠢的AI应用和幕后真正具有变革力量的、由多个AI代理协同工作的“代理式框架”技术,并指出了其未来的巨大潜力。

Edit:2025.07.03

**关于 AI 2027 的思考**

2025年6月

在lemmy、 substack 上发表评论 。

有錯誤嗎?  请修复

几个月前(2025年4月),一群杰出人士发布了“AI 2027”项目,预测通用人工智能(AGI)有望在2027年实现,并带来重大影响。该项目包含一系列预测以及未来发展方向的展望。该项目引起了广泛关注。有人持正面评价,有人持负面评价,但几乎所有评论都高度一致。

最近(2025 年 6 月),titotal发布了一份详细的评论,指出建模方法存在各种缺陷。

关于AI 2027,或者技术层面的批评,我没什么好说的。我至少需要几周时间才能写出一个值得关注的观点,而我还没有投入时间。但我想对这场讨论发表评论。(因为没有人会说“我们需要的是更多关于这场讨论的评论”。)

大致来说,我记得是这样的:首先,《AI 2027》出来了。大家都欢呼起来。“耶!太棒了!”然后评论出来了。大家都发出嘘声。“糟糕!《AI 2027》一点也不严肃!这就是为什么我们需要同行评审!”

这让我同时感到乐观和沮丧。

2027 年的人工智能应该经过同行评审吗?好吧,让我给你讲一个常见的故事:

  1. 有人决定写一篇论文。
  2. 为了能够被期刊接受,他们使用晦涩难懂的学术语言来撰写论文,奉承地引用所有可能成为审稿人的人的无关论文,并尽一切可能隐藏所有缺陷。
  3. 这比预期花费的时间多了 10 倍,导致论文变得非常枯燥和晦涩,并且所有限制都难以辨认。
  4. 他们将其提交给期刊。
  5. 过了好一会儿,一些没有报酬、心不在焉的同学才快速浏览了一下论文,写下了一些想法。
  6. 论文会经过一个修改周期,希望能让同行满意。也可能是论文质量太差,同行们看到了,然后论文就被拒了。没问题!作者可以重新投稿给其他期刊。
  7. 十二年后,这篇论文出版了。真是快乐的一天!
  8. 您决定阅读这篇论文。
  9. 费力地读完论文后,你发现了一些可疑之处。但你不确定,因为论文并没有完全解释他们到底做了什么。
  10. 这篇论文引用了一堆其他论文,暗示它们可能能解决你的问题。所以你也读了那些论文。这于事无补。
  11. 你看一下补充材料,里面都是像素化程度极高的图形和表格,而且标签也Qetzl_xmpf12没有任何解释。
  12. 无奈之下,你给作者发了电子邮件。
  13. 他们从不回应。
  14. 完结。

记住,同行评审是由来自同一领域、思维方式相似的同行完成的。不同的领域会根据不同的标准来判断哪些内容重要,哪些内容错误。例如,在许多社会科学领域,快速粗略的、具有强烈暗示因果关系的回归分析往往能得到A+的满分。局外人可以抱怨,但他们不是评审的对象。

我不会说同行评审毫无价值。它还是有价值的!不过,你可以说我愤世嫉俗——你说得没错——但我认为同行评审论文中的错误数量比普遍理解的要高出一到两个数量级。

为什么一开始就有这么多错误?我不知道你是否听说过,但人类是容易犯错的生物。当我们构建复杂的东西时,它们往往会存在缺陷。尤其是在人们有强烈的动机去创造大量“令人惊讶”的结果,而寻找缺陷的过程又不够严谨的情况下,它们更容易出现缺陷。

作者的动力难道不是源于真理吗?否则,他们为什么要选择那样的生活,而不是去别的地方赚更多的钱呢?我个人认为这是一个重要因素,或许也是现行体系得以运作的主要原因。然而,令人惊讶的是,许多人对自己的论断是否正确漠不关心。他们在这个圈子里混了太久,以至于他们唯一记得的就是自己的H指数

如果有人在论文发表后发现错误怎么办?这种情况时有发生,但论文几乎从未被撤回。没人想把事情闹大,因为,再说一遍,同行。为什么要树敌呢?即使后来发表了与之相矛盾的结果,人们也倾向于用非常温和、间接的方式表达批评,以至于几乎无法察觉。

据我所知,错误传播的主要途径是:八卦。这对于学者来说还算可以接受,因为他们喜欢八卦,会热衷于传播著名论文的缺陷。但对于不知名的论文则不会发生这种情况,而且外人根本看不到。当然,如果发现缺陷需要新的想法,那就根本不会发生。

如果同行评审真的如此不完美,那么这里有一个小梦想。想象一下:

  1. 爱丽丝形成了一些想法并将它们发布到网上,速度很快,而且几乎没有任何门槛。
  2. 因为爱丽丝是一个普通人,所以会犯一些错误。
  3. 鲍勃看到后觉得有些不对劲。
  4. 鲍勃问了爱丽丝一些问题。因为爱丽丝很在意自己是否正确,所以她很乐意回答这些问题。
  5. 鲍勃仍然认为有些事情很可疑,因此他撰写了一篇批评文章并将其发布到网上,速度很快,而且几乎没有任何把关。
  6. Bob 的批评很友好,完全聚焦于技术问题,没有恶意。但与此同时,他也不留情面。
  7. 因为鲍勃是一个正常人,所以他也会犯一些错误。
  8. 爱丽丝接受了部分批评意见,但拒绝了其他部分,并解释了原因。
  9. 卡罗尔、伊芙、弗兰克和格蕾丝看到这一切,也表达了自己的想法。
  10. 慢慢地,许多人的大脑的集体力量结合起来,产生了比任何一个人所能想到的更好的想法。

这难道不是一件很棒的事吗?如果某个社区能发展出鼓励人们这样做的社会规范,那岂不是很棒?因为据我所知,这大概就是2027年人工智能正在发生的事情。

我想,“惩罚”错误的程度是有权衡的。严厉的惩罚会让人产生防御心理,减少公开讨论。但如果随意,人们可能会变得马虎。

我猜想,不同的情况需要不同的权衡。例如,纯数学最好将“惩罚滑块”设置得相当高,因为验证证明比创建证明更容易。

最佳选择也取决于技术。如果是1925年,沟通受限于纸上书写,或许你会想把大部分验证负担推给原作者。但现在已经不是1925年了,肯定是时候尝试新的模式了。

https://dynomight.net/ai2027/

Edit:2025.07.03

讨论列表 AKP讨论 查看原帖及回帖