OpenAI推出账户高级安全防护
OpenAI发布可选的高级账户安全功能,针对高风险用户和Codex提供统一入口的强化保护措施。对处理敏感数据的企业用户和AI工程师而言,这是首次将AI编码工具纳入企业级安全框架。
整理 RTX 3090 本地部署 LLM 的实战配方,覆盖 vLLM 双卡高吞吐与 llama.cpp 单卡长上下文两条路线。手上有 3090 的工程师可直接复用配置,跳过数周的调参踩坑。
Community recipes for serving LLMs on RTX 3090. Multi-engine (vLLM, llama.cpp, SGLang) and model-agnostic. Currently shipping Qwen3.6-27B configs for 1× and 2× cards.
3090 的 24GB 显存长期卡在尴尬区间:单卡跑不了 70B 级模型,双卡又受 NVLink 缺失拖累。这个 repo 的务实之处在于不追求通用框架,而是把 vLLM 的 TP 并行和 llama.cpp 的 CPU offload 策略分别推到极限,并给出明确的 workload 分界——吞吐量优先选前者,确定性长上下文选后者。
对比类似资源,oobabooga 的 text-generation-webui 更偏易用性,配置透明度不足;LocalAI 抽象层太厚,3090 上反而有性能损耗。这个项目的 262K needle test 和 25K tool return 实测数据是硬通货,之前社区里这类验证散落在 Discord 和 Reddit 帖子里。
最该看的人群:已有 3090 想升级长上下文能力但犹豫要不要换 4090/5090 的个人开发者,以及需要低成本 dev backend 的小团队。repo 里的 DFlash 和 turbo 配置可以直接作为采购决策的参考基准。