vllm 原理解析

1. vllm 的核心优势——PagedAttention PagedAttention是vLLM最核心的技术创新,它解决了大型语言模型推理过程中的内存管理难题。 1.1 传统 attention 遇到的挑战 在标准Transformer推理中,存在两个关键阶段: 预填充阶段(Prefill):处理


LlamaFactory 训练参数详细介绍

LlamaFactory 训练参数详细介绍 官方文档: SFT 训练 - LLaMA Factory 1(基础与通用参数): 参数名称 是否必须 / 默认值 参数含义(详解) 使用示例 取值范围 -h, --help 非必须, 无默认值 <


大模型应用技术分享——Prompt Engineering、RAG、Agent、VectorStore

一、LLM 介绍 1.1 LLM是什么? LLM(Large Language Model, 大语言模型)是一种基于深度学习 Transformer 架构 的自然语言处理模型,通常拥有数十亿甚至上千亿的参数。这类模型通过大规模的数据训练,能够理解和生成自然语言文本,并可以在各种任务上表现出强大的能力


向量数据库技术分享

一、向量 Vector & Embeddings 1.1 什么是向量? 在数学和计算机领域,向量有着不同的含义 ==数学概念——Vector(向量)== 数学上的通用概念,是一个有方向和大小的实体,可以在几何空间中表示,也可以是一个 n 维的数值序列。 形式:向量通常如下图所示 ,可以表示几何点、物