- 训练基础设施
分布式训练、参数同步、checkpoint、通信优化
DeepSpeed, Megatron-LM, FSDP, NCCL, ZeRO - 推理基础设施(Serving)
模型加载、KV Cache 管理、动态批处理、并发调度
vLLM, TensorRT-LLM, TGI, Ray Serve - 模型存储与加载
权重分片、lazy loading、权重格式
Safetensors, GGUF, Tensor Parallel - 特征与索引Embedding/向量检索
向量数据库、索引结构、量化 FAISS, Milvus, ScaNN, HNSW, IVF - 资源编排与调度 GPU 调度、混部、弹性伸缩
Kubernetes, Ray, RunPod, vGPU - 数据管线与特征存储
数据清洗、分片、版本控制
Petastorm, Delta Lake, Feature Store - Infra 优化方向
I/O pipeline、KV cache 复用、张量压缩、显存分配
CUDA、Paged Attention、Paged KV