让LLM直接读写分子结构图
值得看指数 70.0 NO. 006 · 2026.06.06
Stars112创建6 天前Forks3Issues0
为什么值得看
MoleCode是一种图显式分子语言,将分子表示为代码让LLM直接操作化学结构,而非从SMILES等字符串中重建。对AI制药和化学信息学团队来说,这解决了LLM理解分子拓扑的结构性瓶颈。
Molecode presents molecules as code and enables LLMs to operate and reason on chemistry directly.
媒体预览
编辑判断
化学AI长期困在SMILES/SELFIES的字符串表示里,LLM必须先'翻译'再推理,拓扑信息大量丢失。MoleCode的激进之处在于把分子当代码AST来操作——原子是节点对象,键是边引用,LLM可以直接做图遍历和子结构替换。
这和Google DeepMind的AlphaFold路线不同,后者用几何深度学习,MoleCode走的是符号推理+LLM的混合路径。目前112 stars尚处早期,但论文已放出来,做药物发现中间体生成或反应预测的团队可以优先试——特别是那些用GPT-4做化学编辑但受限于SMILES解析错误的场景。
风险点:图显式表示的token长度会比SMILES长数倍,长链分子的上下文窗口消耗需要实测。
Star History
生态分析
Experimental
图显式分子语言开创者,填补LLM直接操作化学结构的表示层空白
独特价值:以代码形式显式编码分子拓扑,突破SMILES字符串的隐性结构瓶颈