02-理解LLM
编辑日期: 2024-07-06 文章阅读: 次
大型语言模型 (LLM) 是一种能够处理和生成自然语言文本的人工智能。
它从书籍、文章、网页和图像等来源收集的大量数据中进行学习,以发现语言的模式
和规则
。
LLM有多大?
LLM 是使用神经网络架构构建的。
它接受输入,具有多个隐藏层,这些隐藏层分解语言的不同方面,并在输出层产生结果。
人们经常说,最新的基础模型比上一个更大,但这意味着什么?
简而言之,模型的参数
越多,它可以处理、学习和生成的数据就越多。
对于神经网络架构中两个神经元之间的每个连接,都有一个函数:权重
* 输入
+ 偏差
。
该网络产生的数值决定了模型如何处理语言。
LLM 确实规模庞大,而且增长迅速。
2018年,有些模型可以计算数百万个参数。但如今,GPT4可以计算数万亿
个参数。
该图表显示了与每个模型所具有的参数数量相关的不同代LLM:
基础模型在 LLM 中起什么作用?
基础模型
是指LLM的特定实例或版本。例如 GPT-3、GPT-4。
基础模型在大量文本语料库或代码上进行训练和微调。
基础模型接收各种不同格式的训练数据,并使用转换器架构构建通用模型。
可以通过提示或微调来创建适应性,以实现某些任务。
LLM 与更传统的自然语言处理 (NLP) 有何不同?
传统 NLP 与 LLM 有一些区别。
展开表格
传统 NLP | 大型语言模型 |
---|---|
每个功能需要一个模型。 | 单一模型可用于多种 自然语言用例。 |
提供一组标记数据来训练ML模型。 | 在基础模型中使用数TB 的未标记数据。 |
用自然语言描述您希望模型做什么。 | 针对特定用例进行了高度优化。 |
LLM 不能做什么?
了解 LLM 能做什么很重要,但了解它不能做什么也同样重要,这样你才能选择适合工作的工具。
- 理解语言:LLM 是一种预测引擎,它根据已有的文本将模式组合在一起以生成更多文本。它不理解语言或数学。
- 了解事实:LLM没有单独的信息检索和创造性写作模式;它只是预测下一个最可能的标记。
- 理解礼仪、情感或道德:LLM不能表现出拟人化或理解道德。基础模型的输出是训练数据和提示的组合。
点击下方,复习上一节课:
点击下方,学习下一节课: