Absolutely. LLM inference is still a greenfield — things like overlap scheduling...

		whoevercares 65 days ago \| parent \| context \| favorite \| on: vLLM large scale serving: DeepSeek 2.2k tok/s/h200... Absolutely. LLM inference is still a greenfield — things like overlap scheduling and JIT CUDA kernels are very recent. We’re just getting started optimizing for modern LLM architectures, so cost/perf will keep improving fast.