02-理解LLM

编辑日期: 2024-07-06 文章阅读: 次

大型语言模型 (LLM) 是一种能够处理和生成自然语言文本的人工智能。它从书籍、文章、网页和图像等来源收集的大量数据中进行学习，以发现语言的模式和规则。

LLM有多大？

LLM 是使用神经网络架构构建的。

它接受输入，具有多个隐藏层，这些隐藏层分解语言的不同方面，并在输出层产生结果。

人们经常说，最新的基础模型比上一个更大，但这意味着什么？

简而言之，模型的参数越多，它可以处理、学习和生成的数据就越多。

对于神经网络架构中两个神经元之间的每个连接，都有一个函数：权重 * 输入 + 偏差。

该网络产生的数值决定了模型如何处理语言。

LLM 确实规模庞大，而且增长迅速。

2018年，有些模型可以计算数百万个参数。但如今，GPT4可以计算数万亿个参数。

该图表显示了与每个模型所具有的参数数量相关的不同代LLM：

该图表显示了与每个模型所具有的参数数量相关的不同代LLM

基础模型是指LLM的特定实例或版本。例如 GPT-3、GPT-4。

基础模型在大量文本语料库或代码上进行训练和微调。

基础模型接收各种不同格式的训练数据，并使用转换器架构构建通用模型。

可以通过提示或微调来创建适应性，以实现某些任务。

传统 NLP 与 LLM 有一些区别。

展开表格

了解 LLM 能做什么很重要，但了解它不能做什么也同样重要，这样你才能选择适合工作的工具。

点击下方，复习上一节课：

点击下方，学习下一节课：

Site Views: Visitors: