当前位置：个人在线分享 > 开源模型应用落地-Qwen2-7B-Instruct与vllm实现推理加速的正确姿势（十）

开源模型应用落地-Qwen2-7B-Instruct与vllm实现推理加速的正确姿势（十）

作者 : admin 本文共612个字，预计阅读时间需要2分钟发布时间： 2024-06-17 共1人阅读

一、前言

目前，大语言模型已升级至Qwen2版本。无论是语言模型还是多模态模型，均在大规模多语言和多模态数据上进行预训练，并通过高质量数据进行后期微调以贴近人类偏好。在本篇学习中，将集成vllm实现模型推理加速，现在，我们赶紧跟上技术发展的脚步，去体验一下新版本模型的推理质量。

二、术语

2.1. vLLM

vLLM是一个开源的大模型推理加速框架，通过PagedAttention高效地管理attention中缓存的张量，实现了比HuggingFace Transformers高14-24倍的吞吐量。

2.2. qwen2

Qwen是阿里巴巴集团Qwen团队研发的大语言模型和大型多模态模型系列。目前，大语言模型已升级至Qwen2版本。无论是语言模型还是多模态模型，均在大规模多语言和多模态数据上进行预训练，并通过高质量数据进行后期微调以贴近人类偏好。Qwen具备自然语言理解、文本生成、视觉理解、音频理解、工具使用、角色扮演、作为AI Agent进行互动等多种能力。

最新版本Qwen2有以下特点：

5种模型规模，包括0.5B、1.5B、7B、57B-A14B和72B；
针对每种尺寸提供基础模型和指令微调模型，并确保指令微调模型按照人类偏好进行校准；
基础模型和指令微调模型的多语言支持；
所有模型均稳定支持32K长度上下文；Qwen2-7B-Instruct与Qwen2-72B-Instruct可支持128K上下文（需额外配置&

深度学习自然语言处理语言模型

本站无任何商业行为
个人在线分享 » 开源模型应用落地-Qwen2-7B-Instruct与vllm实现推理加速的正确姿势（十）

admin 钻石

分享到：

E-->