AI 时代的学习范式
文章约5300字,慢慢读,读起来很快的。
0 引言
我现在想在这里谈一谈,在这么一个AI时代,或者说目前这个AI已经开始慢慢普及、普通人已经可以在日常生活中运用AI去实质性帮助自己的时代,关于“主动学习”的一些思考。
首先把话说明白,这篇东西的目标人群,是那些比较偏硬核的、偏技术的,比较主动想去研究大模型,同时也是比较有独立思考能力的那部分人。我的核心观点很直接:在这么一个有AI辅佐的时代,我们学习的范式在某种程度上已经发生了根本性的改变。我们必须主动去接受这些变化,去拥抱这些变化,去学习这些新事物。
我们必须坦诚面对自己,面对这些乱七八糟的东西。
1 根本
我的一切观点、一切认识、一切感受,其实都来源于一个最根本性的问题,或者说一个基本公理:既然AI是由全人类所有的语料训练组成的,这其中包含了各行各业、各个领域的专家认识,包括各种专业性极强的论文,那么我们可以下一个很简单的定论——AI知道的一定比我们个人多。这点实际上是很难反驳的。
所以,我想表达的最根本的一个认识就是:我们绝对是可以从AI身上学到东西的。这不复杂,就是我们要承认AI有比我们优秀的地方。这里的“AI”是一个泛指,既包括它储存的知识本身,也包括它的逻辑、它的思考方式,当然也包括它直接给出的回答。
为了把这个问题讲透,我更愿意用我最近的一个实际场景作为例子。
这个例子起源于我的一个具体需求。这点非常重要,在当前这个时代,我认为你一切的“主动学习”都应该源于你的需求,源于你的目的。
我最近的需求是这样的:我在使用AI IDE(智能集成开发环境)进行开发的时候,遇到了一些问题。我想构建一套更好、更完善的工作流,就是从我有一个想法,到如何让AI把它落地,我想把这个过程系统化、结构化,不断地去完善它。
面对这个问题,我目前摸索出了一套自己的方案。简单来说,我在开发复杂项目或者进行前期结构搭建时,会将AI分成两个角色,用到两个不同的AI。
第一个AI,我会用类似Gemini 3Pro这样上下文能力强的模型。模型本身不重要,重要的是我用它的目的。这个AI实际上充当的是我的“技术顾问”或者说“合伙人”。我会把各种天马行空的想法告诉它,然后由它来帮我判断能不能落地、好不好落地、实现难度如何、需要用到哪些工具。总体而言,这个AI起的是一个指导性的作用,它告诉你“该怎么做”、“去哪里做”,给的是一个很泛的、框架性的指导。它负责发散,负责探讨可能性的边界。
有了第一个AI的回答之后,我就大概知道我的项目需要用到哪些技术栈、哪些框架,我对项目的落地架构就有了一个相对清晰的认识。
明白这一点后,我就需要去落地了。这时候我会找第二个AI,也就是IDE里内置的那个AI。我去跟它聊天,把我的需求详细地告诉它。而它呢,扮演的是一个“工程师”的角色。它负责把那些相对具体的想法,转化为可以落地、可以执行的代码。对于这个角色,我希望它的回答是收敛的,是一定要可执行的。
这实际上是一个很简单的工作流,但它与我们过往的使用习惯有很大的不同。比如,我将AI分成了两个角色,它们每一个都担任不同的职能,它们的回答风格、输出方向也是完全不一样的。
在这个过程中,我的问题就产生了:想去设置好这两个角色,我首先得设置好它们的提示词(Prompt),对吧?那我就在想,究竟什么样的提示词才能让AI达成我的目的呢?
于是,我带着这个很泛的问题,开始不断地跟AI交流。在这个过程中,对于提示词工程、上下文工程,我慢慢形成了一定的认识。这些认识其实是由很多个很碎片、很微小的观点组成的,它们之间相互联系。
为什么说是“观点”呢?这其实很有趣。如果你想了解这些比较前沿的知识,首先你得承认,这些东西确实是人类以往没有研究过的,都是最近几年才出现的。这些研究成果主要发表在哪里?
你很容易想象知识的流向:肯定是从那些最顶端的技术大牛,比如OpenAI或者谷歌的技术人员,他们的感想、他们的论文流出来的。
更有趣的一点是,很多人会选择在Twitter(也就是现在的X)上发表这些看法。这就导致一个特点:这些知识实际上是很碎片化的。
举个例子,比如卡帕西(Andrej Karpathy,x点com/karpathy),他今天发了一条关于他怎么使用AI编程的推文,说他不喜欢设置复杂的提示词,对于简单项目有某种习惯;第二天,你可能会刷到另一个专家,他对卡帕西的看法表示同意或补充。这些东西都是很零散、很琐碎的。而你的作用,就是需要根据你的目的和需求,去学习、去采纳他们的方法。
这也涉及到一个很关键的点:我做这一切到底是为了什么?我要再次强调,我的一切问题来源于需求。
为了解决这个需求,我首先要从“第一性原理”的角度去解构这个问题。比如,我想把“怎么样用提示词让AI得到我想要的回答”这个问题拆解开。这个问题实际上包含了无数个小问题:提示词的作用是什么?提示词怎么设置?AI本身的特性是什么?可以探讨的东西太多了,非常复杂。
关于这个问题,我就需要知道目前业界或者那些技术人员的想法、他们的做法是怎么样的。
这个思路其实很正常,就像你不知道一件事情怎么做的时候,最简单的办法肯定是去看那些大牛是怎么做的。第二个办法才是去研究底层原理,究其根本搞清楚提示词对大模型输出到底有什么样的影响。
我觉得这两种思维都非常重要,没有高下之分。一种代表着“向外学习”,一种代表着向其内部深层的学习。但是最终的导向都是相似的。
如果按照这个思维去想,我们首先遇到的一个问题就是:我怎么知道目前这些大牛对这些东西抱有什么样的看法呢?
这个问题非常关键。在这个阶段,你实际上知道自己想要的是什么——你想要知道大牛的看法。那你就要去想,他们的看法在哪里可以看到?这么一想,答案就很明显了:在论文里,或者在一些社交平台上。
既然知道了这些前沿看法和技术存在的地方,你要做的就是去关注他们的账号,去学习。当然,这里我推荐一个非常有用的方式:利用AI工具。
比如在X上面,它内置了Grok。它实际上可以将整一个X的内容作为一个搜索引擎的知识库。这其实非常强悍。有了这么一个工具之后,你就可以直接让AI去帮你总结。你可以慢慢问它,比如:“目前AI大模型领域有哪些技术大佬?”它可以给你列出清单。然后你再让它告诉你:“这些人关于提示词的看法是样子的?有哪些观点?”它又会给你输出一些回答。
有了这些回答之后,你在其中肯定会遇到一些陌生的词汇。而这每一个陌生的词汇,就是你学习的起点。
你可以去新开一个对话,把这些陌生的词汇一个一个丢给AI去问。
举个具体的例子,我向AI问了这么一个问题:“我想知道目前最顶尖、最前沿的提示词架构师和研究员,他们公认的范式是什么样子的?”
AI就给了我一些回答,比如“Chain of Thought (CoT)”,也就是思维链,那种一步一步思考的范式;或者“Tree of Thoughts (ToT)”,思维树,把推理变成一种树状分支;还有等等很多我以前从未见过的概念。
这些概念就是你学习的抓手。你可以新开一个对话去问它:“CoT到底是什么意思?我怎么去运用它?有哪些典型的例子?”当你得知了这些之后,你就可以去在实际的AI对话中实践这些提示词的作用了。
在这个过程中,对于我来说,我本身对这方面有一些基础,不是零认知,所以我还会让AI帮我大概解释一下它们背后的原理,然后帮我筛选出那些相对来说更重要的问题,或者我更感兴趣的方向。
于是,我就顺着这个思路继续跟AI聊天,继续探讨。在这个过程中,它会不断地蹦出一些新的概念、新的词语、新的表达。只要有不懂的地方,我就直接问它:“这到底是什么意思?请说人话,请举例子。”
这其实很简单,不需要别人教你,都是很自然的想法。如果你有什么具体疑问,也可以直接问。
举个具体的例子,我向AI问了这么一个问题:“我想知道那些AI大牛在提示词上是怎么设置的?”AI就告诉我,比如Casey,他很少分享具体的例子,但他多次提到他比较推崇“上下文工程”,不喜欢设置死板的提示词,更喜欢去主动控制整个上下文;还有lilian weng,她的观点是重视基本的系统提示(System Prompt),以及零样本(Zero-shot)或者少样本提示(Few-shot),还有CoT。
你会发现,每个人的观点中都会有一些不同的例子和概念。这些都是你可以去学习的方向,你不用全部学,只要选你感兴趣、对你有用的方向就可以了。
当你逐渐学了这些东西,觉得学习到一定程度的时候,一定要去实践。
在这个过程中,你还是要回归你的需求——还是那个“第一性原理”。你要回看你的需求到底是什么。在这个时候,其实你已经可以对你的需求进行重构了。
比如,我本来的需求只是“我想通过提示词让大模型输出我想要的回答”。但在你了解到这么多关于原理和大佬的观点之后,你就可以细化你的需求,把它变成:“我应该怎么样去设置/规划我的提示词结构与内容,去引导/限制/约束大模型回答…?”
你的需求会变得更具体。同时,你也会意识到,你自己与AI大模型互动本身,也会影响大模型的回答。这些都是你学习之后得出的心得和感受。
你的需求会变得更具体。同时,你也会意识到,你自己与AI大模型互动本身,也会影响大模型的回答。这些都是你学习之后得出的心得和感受。
在这个过程中,你也会意识到提示词的设置可能不需要很复杂,复杂了效果反而可能会变差。同时,你也需要注意不要去“污染”上下文。
什么叫污染上下文?比如你不能随意变化你的身份。你不能在第一段对话里说你是一个思想家,在第二段对话里又说你是一个实干家。
这对于大模型来说,会觉得这两个身份在一定程度上是矛盾的。它前面的输出会影响到后面的输出,导致它后面的回答和你第二个问题想要得到的方向不一致。
你必须意识到这一点:你与AI的每一个回答、每一个字、所有的Context(上下文),都会去影响它接下来的输出。这有点像先验概率和后验概率的概念,它是一个复杂的交互过程。
这就是为什么现在很多人开始研究“上下文工程”,将管理上下文作为一个比简单设置提示词更主要的任务。管理上下文的意思就是,让你所有的提问、引导、铺垫,都去为你那个最简单、最直接的需求服务,而不是去节外生枝。
如果你在一个编程的对话中,突然问了一个风马牛不相及的问题,大模型接下来的输出质量就可能会受到影响,因为它被你那个无关的问题“污染”了。这正是我通过学习之后得到的认识,它反过来指导了我的实践。
所以总结一下:你首先还是要回归你的需求,要将你的需求细化,一步一步地去搞明白你到底想要什么东西。
实际上,这么一个学习过程是非常有趣的。因为你意识到你是在解决一个具体的需求,它是你想解决的,也是你感兴趣的。同时你会发现,你在与大模型的交互和思考中,一步一步地去逼近问题背后的真相。你会觉得这个过程很有成就感。
而且,你有这么一个强力的帮手,你会觉得学习本身也很快乐。其实你可以“很懒”地学习,你可以让它把东西喂到你嘴边。但我说的这个“懒”是什么样的懒?它绝对不是思想上的懒。相反,你的思想一定要极为灵活,你要有宏观的想法,你要意识到你现在进行到哪一步了,接下来要干什么。
当然,这个计划肯定会随着大模型的回答和你认识的递进,去逐步调整。
2 心路
其实现在回过头看我这段时间的思考,它真不是在瞎折腾,而是一个非常清晰的、一步一步去逼近底层逻辑的过程。
最开始的时候,我在研究提示词的本质。 我当时就在想,提示词真的越复杂越好吗?后来我发现,其实提示词不是在搞文学创作,它本质上是在调动 AI 的注意力。 这里面有三个支柱:一个是语义对齐,就是说话要准;一个是熵减(减少含糊/复杂),就是通过约束把那些平庸的回答过滤掉;还有一个就是上下文学习,也就是给 AI 搭建一个临时的思维环境。 所以我得出一个结论,信噪比才是最重要的,那些阿谀奉承的废话不仅会浪费宝贵的token额度,还会污染上下文,导致后面回答的质量下降。
接着,我发现了“角色干涉”的问题。 以前我们习惯给 AI 堆很多身份,跟它说“你既是一个资深工程师,又是一个创业合伙人”,但我发现这样不行。角色之间是会产生冲突的,AI会在那里搞折中,输出的结果反而四不像。 于是我就想,能不能把它们分开?于是我找到了“时序解耦”:先让它发散地去思考,然后再让它严谨地去执行,别把这两件事混在一起做。
然后,我就开始构建我自己的工作流了。 既然要把思考和执行分开,那我就设计了一套逻辑流: 第一步,先用第一性原理去做跨学科的解构,只准思考,不准出方案; 第二步,再根据解构出来的逻辑去落地。 先让它发散地去思考,然后再让它严谨地去执行,千万别把这两件事混在一起做。
再往后走,有一个很惊喜的发现,就是我的这些想法,竟然跟业界大牛的思路是对齐的。
我去深入研究了一下,发现网上(短视频)那些零零碎碎的技巧,其实很难支撑深层需求。但我摸索出来的这套逻辑,实际上就是现在最前沿的所谓“智能体工作流(Agentic Workflow)”。 你不管是看吴恩达提倡的模式,还是OpenAI在研究的长链推理,在某种程度上跟我这种“二阶解构”的思路是一致的。 这也验证了我之前的判断,只要你顺着逻辑去深挖,殊途同归。
最后,我把视角上升到了“上下文工程”(Context Engineering)。这也是我最近一直在琢磨的事。
我意识到,如果你跟AI天马行空地乱聊,其实是会产生“毒性”的。我就在想,怎么去维持一个长程的一致性?于是我确立了“单窗口、单任务”的原则,去严格管理那些热数据和冷数据。说白了,你得维护一个极其纯净、低熵的内存环境,AI才能给你吐出高质量的代码和决策。
所以你看,我这一路走过来,路径是非常清晰的:是从最开始找“更好的提示词”,进化到了找“更优的逻辑范式”,最后落脚到了对“上下文环境”的全面治理。
现在,在编程场景下,ai聊天框就是一个需要精密管理和调度的复杂系统。 而你有意识的去计划聊天内容,亦或者像卡帕西一样“用完即弃”,都是一种解决的方式。
it’s all up to you
3 尾声
Γνῶθι σεαυτόν “Know Thyself”
认识你自己 是最著名的德尔斐神谕。
任何真正了解自己,知道自己在世界上的位置的人,都会明智地生活。
在这个时代,唯一能限制你的,只有你自己。
知识触手可及。但是,智慧从不廉价。