vllm 原理解析 LLM 1. vllm 的核心优势——PagedAttention PagedAttention是vLLM最核心的技术创新,它解决了大型语言模型推理过程中的内存管理难题。 1.1 传统 attention 遇到的挑战 在标准Transformer推理中,存在两个关键阶段: 预填充阶段(Prefill):处理
HAMi GPU 虚拟化详细解析 AI Infra github 仓库: GitHub - Project-HAMi/HAMi: Heterogeneous AI Computing Virtualization Middleware GitHub - Project-HAMi/HAMi-core: HAMi-core compiles libvgp
volcano 核心原理 云原生 1. volcano 架构 Volcano 是一个基于 Kubernetes 构建的批处理系统。主要分为四个模块: Scheduler:负责作业的调度决策,有多种调度策略,如 gang 调度、priority 调度等 controller manager:负责管理各种自定义资源(CRD)(volca
LlamaFactory 训练参数详细介绍 LLM LlamaFactory 训练参数详细介绍 官方文档: SFT 训练 - LLaMA Factory 1(基础与通用参数): 参数名称 是否必须 / 默认值 参数含义(详解) 使用示例 取值范围 -h, --help 非必须, 无默认值 <
Fluid 使用解析 AI Infra 一、使用方式 1.1 创建Dataset资源 创建一个Dataset资源对象,描述你想要访问的远程数据集 apiVersion: data.fluid.io/v1alpha1 kind: Dataset metadata: name: demo spec:
数据集编排&加速介绍 AI Infra 1. 模型训练&存储的基本概念 1.1 M-P神经元模型 在生物神经网络中,每个神经元与其他神经元相连,当它“兴奋”时,就会向相连的神经元发送化学物质,从而改变这些神经元内的电位;如果某神经元的电位超过了一个“阈值”,那么它就会被激活,即“兴奋”起来,向其他神经元发送化学物质。 a_1,a_2 ~
大模型应用技术分享——Prompt Engineering、RAG、Agent、VectorStore LLM 一、LLM 介绍 1.1 LLM是什么? LLM(Large Language Model, 大语言模型)是一种基于深度学习 Transformer 架构 的自然语言处理模型,通常拥有数十亿甚至上千亿的参数。这类模型通过大规模的数据训练,能够理解和生成自然语言文本,并可以在各种任务上表现出强大的能力
向量数据库技术分享 LLM 一、向量 Vector & Embeddings 1.1 什么是向量? 在数学和计算机领域,向量有着不同的含义 ==数学概念——Vector(向量)== 数学上的通用概念,是一个有方向和大小的实体,可以在几何空间中表示,也可以是一个 n 维的数值序列。 形式:向量通常如下图所示 ,可以表示几何点、物
Milvus 集群线上问题记录 向量检索 Milvus 集群线上问题记录 问题现象 下午 2点多,突然线上Milvus集群全部崩溃了,具体表现如下: 大量Node OOM 机器负载本不高,但1-2分钟内cpu、内存、负载全部被打满