03-LLM 的核心概念

编辑日期: 2024-07-07 文章阅读: 次

为了有效地使用 LLM，理解一些核心概念非常重要，即标记 (Token)和提示() 。 - 提示：提示是用于指导 LLM 的文本句子。根据您如何措辞，您会得到不同的结果。提示：提示是用于指示 LLM.根据你的措辞，你会得到不同的结果。 - 标记：标记可以是单个字符、单词的一部分或整个单词。单个标记可用于表示常见单词，而多个标记则需要表示不太常见的单词。令牌：令牌可以是单个字符、单词的一小部分或整个单词。单个标记可用于表示常用词，而需要多个标记来表示不太常见的词。

提示

文本提示是一个句子。LLM 可以理解几种不同的语言。您可以用自己的语言编写提示，而无需学习特定语言才能使用 LLM。请参阅以下提示示例：

生成一只戴着海盗帽的粉色鹦鹉的图像。
使用 Python 创建一个处理客户的 Web 应用程序。

你的要求越具体，结果就越好。

Token

Token 是 LLM 可以理解和处理的基本单位文本或代码。

OpenAI 自然语言模型不以单词或字符作为文本单位进行操作，而是以介于两者之间的某种东西：标记进行操作。

OpenAI 提供了一个实用的 tokenizer 网站，可帮助您了解它如何标记您的请求。有关更多信息，请参阅OpenAI tokenizer。

在 OpenAI 标记器提示框中开始输入后，会出现一个计数器来计算框中的标记总数。

如果您正在输入，计数器可能需要几秒钟才能更新。

以下单词中有多少个标记？

apple让我们尝试确定以下单词、blueberries和的标记数量Skarsgård。

因为该词apple是常用词，所以需要一个标记来表示。另一方面，该词blueberries需要两个标记（blue和berries）来表示。除非该词很常见，否则专有名词（如）Skarsgård需要多个标记来表示。

这种标记表示允许 AI 模型生成你在任何字典中都找不到的单词，而无需逐个字母地生成文本。

逐个字母生成文本很容易导致乱码。

如何完成工作？

自然语言模型以不确定的方式一次生成一个完成的标记。

在每个步骤中，模型都会发出一个 token 列表及其相关权重。然后，API 根据其权重从列表中抽取一个 token。权重较大的 token 更有可能被选中。

图表显示了代表 n 个输入标记的多个方块，旁边有一个箭头，指向代表一个输出标记的一个方块。

API 将选定的标记添加到提示中，并重复该过程，直到达到完成的标记的最大长度，或者直到模型生成称为停止标记的特殊标记，从而阻止生成新的标记。

正是由于这个不确定的过程，模型才会在每次我们发送补全请求时生成新单词。

每个 LLM 对其可生成的令牌数量都有限制。在完成时，此限制适用于原始提示中的令牌总数以及新生成的令牌总数（它们加在一起）。

更大的令牌限制允许更长的完成时间和更大的提示。

AI之家

🔥AI副业赚钱星球

点击下面图片查看

🔥ChatGPT-4在线使用

Python和AI在线练习

AI之家教程

03-LLM 的核心概念

提示

Token

以下单词中有多少个标记？

如何完成工作？

目录