微软发布了Phi-3.5系列人工智能模型：具备128K的上下文窗口，并首次采用混合专家模型。

编辑日期：2024年08月21日

微软发布了phi35系列人工智能模型具备

本次发布的 Phi-3.5 系列涵盖了三个轻量级的 AI 模型：Phi-3.5-MoE、Phi-3.5-vision 与 Phi-3.5-mini。这些模型是基于合成数据及经过筛选的公开网站内容构建而成，具备 128K 的上下文窗口。目前，所有这些模型均已按照 MIT 许可协议在 Hugging Face 平台上提供访问。以下是相关介绍：

Phi-3.5-MoE是Phi系列中首次采用混合专家（MoE）技术的模型。该模型基于16个3.8B的MoE模型，通过仅激活2个专家实现了66亿个参数，并且在4.9T的标记上使用512个H100进行了训练。

微软的研究团队从零开始设计此模型，旨在进一步提升其性能。在标准的人工智能基准测试中，Phi-3.5-MoE的表现超越了Llama-3.1 8B、Gemma-2-9B及Gemini-1.5-Flash，并且接近当前的领先者GPT-4o-mini。

Phi-3.5-vision拥有42亿个参数，采用256个A100 GPU在500B标记上进行了训练，现在支持多帧图像理解和推理。

Phi-3.5-vision 在 MMMU（从 40.2 提升到 43.0）、MMBench（从 80.5 提升到 81.9）以及文档理解基准 TextVQA（从 70.9 提升到 72.0）上的表现均有提升。

Phi-3.5-mini 是一个拥有 38 亿参数的模型，它超越了 Llama3.1 的 80 亿参数和 Mistral 的 70 亿参数模型，甚至可以与 Mistral NeMo 的 120 亿参数模型相媲美。

该模型在3.4T的标记上利用512个H100进行了训练。尽管该模型仅包含3.8B的有效参数，但在多语言任务中的表现极具竞争力，甚至可以媲美那些拥有更多有效参数的大型语言模型（LLMs）。

此外，Phi-3.5-mini现在支持128K的上下文窗口，而其主要竞争对手Gemma-2系列仅支持8K。