OpenAI 押注首届 ChatGPT 原住民
OpenAI 发布面向 2026 届毕业生的品牌项目,记录首批完整经历 ChatGPT 时代的大学生群体。对 AI 从业者而言,这是观察原生用户行为变迁的稀缺样本,比任何用户调研都真实。
Photo Agents 是一个本地运行的视觉感知Agent框架,让LLM基于屏幕内容自主感知、推理并操作计算机,Agent能自行编写技能代码实现自我进化。对需要构建可靠GUI自动化或桌面Agent的团队,它提供了比纯文本交互更 grounding 的替代方案。
Autonomous self-evolving agents. Vision-grounded layered memory and self-written skills for LLM agents that operate your computer.
当前主流方案如 Anthropic 的 Computer Use 或 OpenAI 的 Operator 依赖云端API调用,成本高且数据外流。Photo Agents 的差异化在于完全本地运行,且提出「生物式记忆分层」机制——不是简单堆上下文,而是让Agent从成功操作中提炼可复用技能代码,这更接近 Voyager 的 skill library 思路但在视觉 grounding 上做了落地。
目前185 stars、0 forks说明尚处早期,代码成熟度存疑。最该关注的人群:做企业级RPA替代、游戏AI测试、或需要处理敏感数据不能上云的桌面自动化场景。建议先跑通 demo 验证其「自写技能」的实际泛化能力,而非仅看宣传。
视觉感知型桌面Agent框架,专注GUI自动化与自我进化技能编写
独特价值:以屏幕视觉为 grounding,让Agent自主编写技能实现自我进化