跳转至

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

03-LLM 的核心概念

编辑日期: 2024-07-07 文章阅读:

Article Image 为了有效地使用 LLM,理解一些核心概念非常重要,即标记 (Token)和提示() 。 - 提示:提示是用于指导 LLM 的文本句子。根据您如何措辞,您会得到不同的结果。 提示:提示是用于指示 LLM.根据你的措辞,你会得到不同的结果。 - 标记:标记可以是单个字符、单词的一部分或整个单词。单个标记可用于表示常见单词,而多个标记则需要表示不太常见的单词。 令牌:令牌可以是单个字符、单词的一小部分或整个单词。单个标记可用于表示常用词,而需要多个标记来表示不太常见的词。

提示

文本提示是一个句子。LLM 可以理解几种不同的语言。您可以用自己的语言编写提示,而无需学习特定语言才能使用 LLM。请参阅以下提示示例:

  • 生成一只戴着海盗帽的粉色鹦鹉的图像。
  • 使用 Python 创建一个处理客户的 Web 应用程序。

你的要求越具体,结果就越好。

Token

Token 是 LLM 可以理解和处理的基本单位文本或代码。

OpenAI 自然语言模型不以单词或字符作为文本单位进行操作,而是以介于两者之间的某种东西:标记进行操作。

OpenAI 提供了一个实用的 tokenizer 网站,可帮助您了解它如何标记您的请求。有关更多信息,请参阅OpenAI tokenizer

在 OpenAI 标记器提示框中开始输入后,会出现一个计数器来计算框中的标记总数。

如果您正在输入,计数器可能需要几秒钟才能更新。

以下单词中有多少个标记?

apple让我们尝试确定以下单词、blueberries和 的标记数量Skarsgård

因为该词apple是常用词,所以需要一个标记来表示。另一方面,该词blueberries需要两个标记(blueberries)来表示。除非该词很常见,否则专有名词(如)Skarsgård需要多个标记来表示。

这种标记表示允许 AI 模型生成你在任何字典中都找不到的单词,而无需逐个字母地生成文本。

逐个字母生成文本很容易导致乱码。

如何完成工作?

自然语言模型以不确定的方式一次生成一个完成的标记。

在每个步骤中,模型都会发出一个 token 列表及其相关权重。然后,API 根据其权重从列表中抽取一个 token。权重较大的 token 更有可能被选中。

图表显示了代表 n 个输入标记的多个方块,旁边有一个箭头,指向代表一个输出标记的一个方块。

API 将选定的标记添加到提示中,并重复该过程,直到达到完成的标记的最大长度,或者直到模型生成称为停止标记的特殊标记,从而阻止生成新的标记。

正是由于这个不确定的过程,模型才会在每次我们发送补全请求时生成新单词。

每个 LLM 对其可生成的令牌数量都有限制。在完成时,此限制适用于原始提示中的令牌总数以及新生成的令牌总数(它们加在一起)。

更大的令牌限制允许更长的完成时间和更大的提示。

目录

点击下方,复习上一节课:

02-理解LLM

点击下方,学习下一节课:

04-何时使用LLM

京ICP备20031037号-1