Andrej Karpathy: From Vibe Coding to Agentic Engineering

简要总结

本视频总结了 Andrej Karpathy 关于 AI 发展趋势的观点，重点讨论了软件 3.0 时代、Agent 工程以及 AI 的未来。主要观点包括：

软件开发范式的转变：从编写代码到提示工程，再到利用 AI Agent 实现自动化。
Agent 工程的重要性：在提高开发效率的同时，保证软件质量和安全性。
AI 的 jagged intelligence（锯齿形智能）：AI 在某些领域表现出色，但在其他领域存在明显不足，需要人类的监督和指导。
理解的重要性：即使 AI 变得越来越强大，人类的理解能力仍然至关重要，因为我们需要指导 AI 并确保其输出的合理性。

作为程序员感到落后 [0:44]

Andrej Karpathy 表示，自从他开始使用像 Lot Code 这样的 Agent 工具以来，他开始感到自己作为程序员的技能已经落后。尤其是在 12 月份，他发现最新的模型在生成代码块时表现出色，几乎不需要人工纠正。他越来越信任这些系统，并开始进行“Vibe Coding”。他强调，AI 领域在 12 月份发生了根本性的变化，尤其是在 Agent 的连贯工作流程方面，这促使他深入研究并进行大量的 side projects。

软件 3.0 解释 [2:28]

Andrej 解释了软件开发的三个阶段：软件 1.0 是编写代码，软件 2.0 是通过创建数据集和训练神经网络进行编程，而软件 3.0 则是通过提示（prompting）来控制 LLM（大型语言模型）这个“解释器”，从而在数字信息空间中执行计算。他以 OpenClaw 的安装为例，指出传统的 shell 脚本安装方式属于软件 1.0 的范畴，而将安装指令复制粘贴给 Agent 则属于软件 3.0 的范畴，后者更加强大，因为 Agent 能够根据环境智能地执行操作并进行调试。

Agents 作为安装程序 [3:44]

传统的软件安装需要编写复杂的脚本来适应不同的平台和环境。然而，在软件 3.0 时代，可以将安装任务交给 AI Agent，Agent 可以根据用户的环境和需求智能地完成安装过程。这种方式更加灵活和强大，因为 Agent 能够自主地解决问题和进行调试。

菜单生成 vs 原始提示 [4:49]

Andrej 分享了他构建 MenuGen 的经历。MenuGen 是一款可以拍摄餐厅菜单照片并显示菜品图片的应用程序。他发现，使用 Gemini 和 Nanobanana，可以直接将照片交给 AI，让 AI 在菜单上叠加菜品图片，而无需编写复杂的应用程序。这表明软件 3.0 更加原始，神经网络承担了更多的工作，而提示或上下文则变得更加重要。他认为，人们需要重新思考，不要局限于现有的模式，而要考虑新的可能性。

2026 年的显而易见 [7:37]

Andrej 预测，未来可能会出现完全神经化的计算机，可以直接输入原始视频或音频，然后使用扩散模型渲染 UI。他认为，在计算的早期，人们对计算机是应该像计算器还是像神经网络感到困惑。虽然我们最终选择了计算器的路径，但未来神经网络可能会成为主导，而 CPU 则成为协处理器。

可验证性和锯齿形技能 [9:41]

Andrej 讨论了 AI 的可验证性，指出 LLM 更容易自动化那些输出可以被验证的领域，例如数学和代码。他解释说，这是因为 LLM 在训练过程中会获得验证奖励，从而在这些领域表现出色。然而，LLM 在其他领域则表现得不够完美，这导致了 AI 的 jagged intelligence（锯齿形智能）。他举例说，即使是最先进的 AI 模型，也可能无法判断 50 米的距离是应该开车还是步行，这表明 AI 仍然存在局限性。

创始人建议和自动化 [13:39]

Andrej 建议，如果创始人想要在 AI 领域创业，应该关注那些可验证的领域，并创建自己的强化学习环境，进行 fine-tuning。他认为，即使实验室没有直接关注这些领域，创始人仍然可以从中受益。他还指出，几乎所有的事情最终都可以被验证，只是有些事情更容易验证。

从 Vibe Coding 到 Agent 工程 [15:46]

Andrej 解释了 Vibe Coding 和 Agent 工程的区别。Vibe Coding 旨在提高所有人在软件开发方面的能力，而 Agent 工程则旨在保持专业软件的质量标准。Agent 工程关注的是如何在不牺牲质量的前提下，利用 Agent 提高开发速度。他认为，Agent 工程的上限非常高，擅长 Agent 工程的人可以获得比传统工程师更高的效率提升。

Agents 无处不在和学习 [25:17]

Andrej 认为，未来 Agent 将无处不在，所有事物都需要为 Agent 重写。他希望看到更多 Agent 原生的基础设施，例如，可以通过提示让 LLM 构建 MenuGen，而无需手动配置 DNS 等设置。他还预测，未来每个人和组织都将拥有自己的 Agent，Agent 之间可以相互交流，从而实现自动化协作。最后，他强调，即使 AI 变得越来越强大，人类的理解能力仍然至关重要，因为我们需要指导 AI 并确保其输出的合理性。