03-LLM 的核心概念
编辑日期: 2024-07-07 文章阅读: 次
为了有效地使用 LLM,理解一些核心概念非常重要,即标记
(Token)和提示
() 。
- 提示:提示是用于指导 LLM 的文本句子。根据您如何措辞,您会得到不同的结果。
提示:提示是用于指示 LLM.根据你的措辞,你会得到不同的结果。
- 标记:标记可以是单个字符、单词的一部分或整个单词。单个标记可用于表示常见单词,而多个标记则需要表示不太常见的单词。
令牌:令牌可以是单个字符、单词的一小部分或整个单词。单个标记可用于表示常用词,而需要多个标记来表示不太常见的词。
提示
文本提示是一个句子。LLM 可以理解几种不同的语言。您可以用自己的语言编写提示,而无需学习特定语言才能使用 LLM。请参阅以下提示示例:
- 生成一只戴着海盗帽的粉色鹦鹉的图像。
- 使用 Python 创建一个处理客户的 Web 应用程序。
你的要求越具体,结果就越好。
Token
Token 是 LLM 可以理解和处理的基本单位文本或代码。
OpenAI 自然语言模型不以单词或字符作为文本单位进行操作,而是以介于两者之间的某种东西:标记进行操作。
OpenAI 提供了一个实用的 tokenizer 网站,可帮助您了解它如何标记您的请求。有关更多信息,请参阅OpenAI tokenizer。
在 OpenAI 标记器提示框中开始输入后,会出现一个计数器来计算框中的标记总数。
如果您正在输入,计数器可能需要几秒钟才能更新。
以下单词中有多少个标记?
apple
让我们尝试确定以下单词、blueberries
和 的标记数量Skarsgård
。
因为该词apple
是常用词,所以需要一个标记来表示。另一方面,该词blueberries
需要两个标记(blue
和berries
)来表示。除非该词很常见,否则专有名词(如)Skarsgård
需要多个标记来表示。
这种标记表示允许 AI 模型生成你在任何字典中都找不到的单词,而无需逐个字母地生成文本。
逐个字母生成文本很容易导致乱码。
如何完成工作?
自然语言模型以不确定的方式一次生成一个完成的标记。
在每个步骤中,模型都会发出一个 token 列表及其相关权重。然后,API 根据其权重从列表中抽取一个 token。权重较大的 token 更有可能被选中。
API 将选定的标记添加到提示中,并重复该过程,直到达到完成的标记的最大长度,或者直到模型生成称为停止标记的特殊标记,从而阻止生成新的标记。
正是由于这个不确定的过程,模型才会在每次我们发送补全请求时生成新单词。
每个 LLM 对其可生成的令牌数量都有限制。在完成时,此限制适用于原始提示中的令牌总数以及新生成的令牌总数(它们加在一起)。
更大的令牌限制允许更长的完成时间和更大的提示。
目录
点击下方,复习上一节课:
点击下方,学习下一节课: