著名专家卡帕西极力提倡:以实践项目为学习途径,笃信“一万小时定律”,持续耕耘。
编辑日期:2024年07月05日
热烈的掌声响彻会场!在伯克利的黑客马拉松活动中,Andrej Karpathy的演讲再度成为热门话题。
我们仿佛正踏入一个创新的计算时代,这让人联想到上世纪80年代计算机技术的革新。
在这个崭新的时代,大型语言模型犹如现代的CPU,处理的是Token而非字节,具备了类似RAM的上下文窗口,这就是我们所说的大语言模型操作系统(LMOS)。
在近20分钟的演讲中,Karpathy深情讲述了他自15年前开始涉足人工智能领域的点滴感受。他追溯了自己在OpenAI的工作历程,描绘了这个组织如何从最初八个成员在一间公寓里奋斗,发展成现今估值接近千亿美元的行业领导者。然而,正如一些网友所指出的,演讲的亮点在于结尾部分:通过实践项目学习,探索有效的激励机制,从而使思维进入积极向上的循环。
来吧,让我们共同鉴赏这场被网友们盛赞为“充满实质性内容”的演讲。
非常荣幸能受邀来到这里,大家好。
我对黑客马拉松一直抱有深厚的热情,因为它凝聚了无尽的活力与创新精神。看到青年人在此切磋学习、开拓新知,总让我心生欢喜。我曾多次参与这样的活动,所以此刻能与各位交流,我感到十分愉快。
今天的盛会规模之壮观,确实出乎我的意料。这充分展现了人工智能在近十五年里的飞速进步和广泛影响。
回溯到十五年前我初次涉足人工智能领域,那时的AI还局限于小范围的学术探讨,主要关注数学理论的精研。
我们用MNIST数据集上的小数字来训练神经网络,还会运用受限玻尔兹曼机,并采用对比散度方法来优化网络结构。
如今,人工智能已经翻开了崭新的篇章。GPU制造巨头NVIDIA已晋升为美国最具价值的公司之一,成为行业发展的领头羊。我们正身处一个独特且充满生机的时期,这从众多如火如荼的黑客马拉松竞赛中可见一斑。
这一切的驱动力在于计算方式的根本转变。我们似乎正逐渐迈入一种全新的计算模式,就如同上世纪80年代计算机迈入个人电脑时代那样具有革命性。
目前,我们不再依赖于执行字节指令的传统中央处理器,而是利用能够处理文本片段的大型语言模型。这些模型结合上下文窗口和存储机制,共同构建出一种创新的计算平台,我称之为大型语言模型操作系统,简称LLM OS。
这是一种创新的编程和学习对象,我们正在深入研究它的潜力和限制,并探索如何在产品开发中充分发挥其作用。
几周以前,OpenAI推出了GPT-4的展示,这个展示生动展现了与人工智能互动的潜力。
它不仅能响应语音命令,还具备视觉识别和绘画等多种能力。我极力建议你们观看影片《她》,在影片中,主角与一个被视为操作系统的AI展开深入对话,我觉得这部电影的情节非常贴近现实。
电影中的AI常常描绘为拥有情感智慧,但在实际生活中,我们更多地运用这些技术来处理数字环境中的各种挑战。这些数字化的存在不仅能执行任务,还能进行沟通与合作,它们能够模拟 Slack 对话,实现数字基础设施的自动化。尽管物理基础设施的自动化目前仍处于初级阶段,但其潜在的影响绝对不可小觑。
此外,我还想提一部2004年的佳片《我,机器人》,由威尔·史密斯倾情出演。
该片构想了一个未来世界,其中机器人广泛地承担各种职责。不过,剧情透露出一个令人深思的转折:人类并未因此过上更美好的生活,反而似乎逐渐受制于机器人。这个设定确实引人入胜。
故事背景设定在2035年,仅仅十年之后的未来。或许那时,我们的生活中将充斥着与我们互动、执行各类任务的机器人,无论是在现实还是虚拟世界。
那么,那样的情景会如何呈现呢?我们将如何编程来确保它们能按我们的意愿行动?又该如何调控,让它们精准地服务于我们?
审视这些要素,你可能会勾勒出一种全面的人工智能图景。这表示你深切意识到,随着技术的不断进步,我们可能在不久的将来的某个时刻面临重大的转变。
我们或许会在虚拟世界和实体世界中见证大规模的自动化。坦率地说,不知道你们的感受如何,但就我个人而言,对于这样的前景有些忧虑。刚才几分钟的讨论,我用了一个图像生成器根据谈话内容创作了一张图,实话说,这幅画并未赢得我的青睐。
我相信我们有能力实现更大的成就,毕竟我们有数千人同心协力。在座的每一位都将踏入AI领域,你们的作为将直接影响这些技术的演变。我们的理想愿景是人类与大自然和睦共生,自动化技术静默运作,低调而不张扬。
在此,我想与大家分享一些个人见解。我深感理解如何将项目转化为现实世界中的变革力量。
我领悟到的一个奇妙现象是,有时看似微不足道的小项目,就如同小小的雪球,其实能够逐渐滚动成极具影响力的大项目。
我曾参与过一个小型的魔方色彩识别项目。此外,十三年前,我在YouTube上分享了一系列游戏编程教学视频,试图引导他人踏入游戏编程的世界,我制作了大量的视频游戏。我还开发了一个别具一格的神经进化模拟器。
并非所有努力都能立即引发连锁反应,许多只是创新与实验的尝试。诚然,这三个项目并未给我带来显著的影响。不过,也不能否认它们的价值,它们确实在一定程度上助力了我的成长。
有趣的是,游戏编程教程却意外地产生了滚雪球效应,引领我转向制作了一些备受关注的魔方教程视频,点燃了我对教育的热情。
后来,在斯坦福大学攻读博士期间,我有幸开创并教授了CS231N课程,这在当时是斯坦福大学首开的深度学习核心课程。
之后,我创建了一个YouTube频道,推出了为深度学习和大语言模型制作的“从零到高手”系列,很多人都喜欢这个。
在此基础上,雪球效应继续,我目前非常感兴趣的一个项目是下一步的课程。我将这个课程命名为LLM 101N,目的是教你创建一个讲故事的工具,类似于你可以用来生成故事的ChatGPT。
该课程的理念是带你逐步探索,从基础开始直至构建一个类似于ChatGPT的故事叙述工具。
我深信,亲身体验这个工具的创建过程将既富有洞察力又充满乐趣。就在前几天,我已在GitHub上推出了这个初步的课程,尽管还处在早期阶段,但我对此满心期待。这就像一个不断壮大的雪球,起源于我13年前对小游戏编程的热爱。
在OpenAI的日子里,我同样经历了这样的发展历程。如我先前所提及,我是OpenAI的创始人之一,担任研究员的角色。
时光回溯至七年前,我在OpenAI任职,这些公开的照片展示出我们八个人在Greg的公寓里并肩工作的场景。
OpenAI的诞生,其目标直指与Google一较高下。Google宛如一头拥有7000亿美元自由现金流的巨猿,几乎垄断了人工智能研究领域的一半人才。
这种形势颇为独特,而我们仅是八名手捧笔记本电脑的挑战者。OpenAI内部孕育了众多项目,聚集了一批杰出的人才。尽管不少项目未能取得显著突破,但仍有一些实现了真正的进展。
比如,在OpenAI的初期,有人专注于打造一个Reddit的对话机器人。当你看到他们的工作台,不禁会想,我们正面对着Google这样的巨头,你却在搞一个Reddit聊天机器人的项目。
让我们着眼于更具雄心的计划,这样初创项目就可能被低估,因为它们早期的状态往往很脆弱。实际上,Reddit聊天机器人是什么呢?本质上,它是一个语言模型,巧合的是,它在Reddit平台上受训。但请注意,这样的模型完全可以利用任何数据集进行训练,并非局限于Reddit。
Transformer架构的应用推动了模型的进步,随后它的应用范围超越了Reddit,涵盖了众多其他网站。
于是乎,我们见证了GPT-1、GPT-2、GPT-3、GPT-4,直到如今备受瞩目的GPT-4o的诞生。这个起初看似微不足道的Reddit聊天机器人,最终引领了计算范式的革新。人们现在认为GPT-4o是一个奇迹,它能与你进行流畅的对话,其响应之精彩令人赞叹。
如今,OpenAI的市值估计已逼近千亿美元,这让人难以置信地见证了一个个小成就汇聚成巨大成功的奇迹。
因此,我想鼓励你持续投入你的计划,让它们日渐累积,或许它们也能成长为震撼人心的大项目。
我深信Malcolm Gladwell提倡的“一万小时定律”,它强调了不懈的实践与大量努力对成就的重要性。无须焦虑于成败,只需专注于你投入的时间,积累自然会发生。
举个例子,不久前的一个周末,我创建了一个简陋的电影推荐网站awesomemovies.life。那天我只是想看电影,于是便推出了这个项目。
有人在推特上称赞我:“周末就能完成,太厉害了。”但我并没有觉得这有什么特别,因为这不是我第一次这样做。
他们看不到的是,这已经是我的第20个类似项目。我对每个步骤都了如指掌,从设置Linode到搭建Flask服务器,编写JavaScript、CSS和HTML,再到整合所有元素。我需要抓取网页,提取tf.idf向量,训练SVM模型。
这些工作我都重复了二十次,甚至有些旧项目的代码可以直接复用。我只是在利用已有的知识和经验进行重组,所以能在短短一个周末内完成。
早些时候,我参与了特斯拉的自动驾驶项目,大约是在七八年前。那时,我被委任为计算机视觉团队的负责人。
加入团队后,我首要的任务之一就是利用PyTorch对计算机视觉深度学习网络训练的代码库进行全面重写。实际上,我几乎是从零开始重建了整个项目,而这个项目后来成为了核心组成部分。
或许在他人看来,这是一项大胆的举措,但对我而言并不意外。在我攻读博士学位的五年间,我已经积累了大量类似的经验,清楚地了解所需的一切。
我知道需要训练集和验证集,需要在PyTorch环境中构建训练循环,需要配置文件,需要日志存储目录,需要整合ResNet,还需要实现检测功能,同时进行回归和分类任务。
每一个环节,我都胸有成竹,这种预见性源自于丰富的实践经验。
因此,切实投入时间积累你的10,000个小时,这对你的成长至关重要。关键就在这里。
顺便提一下,假如你每天专注六小时,达成这个目标大概需耗时五年。
也就是说,要在一个领域内磨练出专业技能,你可能需要花费类似于攻读博士学位的时间。
我发现激发大脑持续分泌多巴胺十分有益。关键在于洞察自我,理解大脑的运作机制,保持它的活力和创新性。毕竟,大脑本质上是一个寻求奖赏的机制,你需要找到满足这种需求的方法。
那么,如何有效地给予大脑奖励呢?
据我的体验,参与项目并定期公开成果是一种好策略。
首先,项目让你有机会全方位、深入地钻研某个主题。日常上课可能涉及广泛的知识点,而项目则让你按需学习,更加聚焦。
我认为这是一种独特的学习模式,与广义学习相辅相成,至关重要。
发布项目其实是一种极具价值的策略。当你决定分享你的成果,你自然会顾及到每一位可能的观众——朋友、团队伙伴、家人,甚至潜在的雇主。这样的考量无疑提升了你对自身工作的标准,激发你付出更多的努力。因为你知道,你的工作将接受公众的评判,任何不足都可能带来尴尬,而这种压力在很多时候是推动进步的动力。同时,当有人对你的项目产生兴趣,那份成就感是无与伦比的。总的来说,这个过程就像是持续不断地自我挑战。让我们从微小的项目开始,携手共创一个美好的未来。谢谢大家。
近日,“坚持探索”的卡帕西也涉足了AI视频创作领域!他将《傲慢与偏见》的开篇语句转化为动态画面,所使用的工具五花八门。
据他所述,他的创作流程大致如下:
这样的创新尝试竟耗费了这位高手近一个小时的时间,于是他在网络上提出疑问:
对于善于叙事的人来说,这里存在着无数可能性。究竟谁会成为首屈一指的全AI驱动电影制作公司呢?
你觉得关于卡帕西的那段视频怎么样呢?(期待你在评论区发表见解)
AI大神卡帕西最新分享
以上全文,欢迎继续阅读学习