LLM 基础概念和核心问题整理

  • 训练基础设施
    分布式训练、参数同步、checkpoint、通信优化
    DeepSpeed, Megatron-LM, FSDP, NCCL, ZeRO
  • 推理基础设施(Serving)
    模型加载、KV Cache 管理、动态批处理、并发调度
    vLLM, TensorRT-LLM, TGI, Ray Serve
  • 模型存储与加载
    权重分片、lazy loading、权重格式
    Safetensors, GGUF, Tensor Parallel
  • 特征与索引Embedding/向量检索
    向量数据库、索引结构、量化 FAISS, Milvus, ScaNN, HNSW, IVF
  • 资源编排与调度 GPU 调度、混部、弹性伸缩
    Kubernetes, Ray, RunPod, vGPU
  • 数据管线与特征存储
    数据清洗、分片、版本控制
    Petastorm, Delta Lake, Feature Store
  • Infra 优化方向
    I/O pipeline、KV cache 复用、张量压缩、显存分配
    CUDA、Paged Attention、Paged KV