靶点药效的能量建模是否合适? 结合亲和力不一定是越大越好,需考虑结合姿势、位点、空间结构 不是最大化,而是约束到合理范围 命名建议:Energy KG → 物理模型/物理智能体? “能量"一词可能偏窄,需要更大的概念来框住 是否调研过已有的药物KG? 如 DRKG、Biokg 等,需说明为什么要重新构建 建议:代谢 → ADMET 涵盖吸收、分布、代谢、排泄、毒性全链路
核心架构 自动化文献检索: Google Scholar API + PDF 文本提取 知识图谱构建: ChatGPT-4o API 提取反应信息并实体对齐 多分支反应路径搜索 (MBRPS): 识别所有有效合成路径 主要贡献 知识图谱作为"外部脑"提供结构化化学约束 记忆化深度优先搜索 (MDFS) 构建逆合成路径树 基于反应条件、产率、安全性推荐最优路径
KnowRetro 核心架构 层次化知识图构建: BRICS 分解 + SMARTS 官能团识别 + RGCN 编码 反应感知预训练: SMILES-to-substructure 翻译任务捕获反应模式 知识注入: Task-relevant KG Adapter 过滤冗余信息,残差融合注入编码器 主要贡献 知识图谱捕获分子-子结构-官能团的层次关系 两阶段学习:化学引导预训练 + KG adapter 微调 USPTO-50K / USPTO-FULL 基准超越现有方法
现有方法的根本问题 搜索空间爆炸:缺乏物理约束,无法剔除化学上不可能的路径 知识孤岛:有机反应与酶促反应各自独立,无法协同规划 静态图谱:无法根据实验反馈动态演化 核心思路 物理约束压缩搜索空间 利用 BDE 和 $\Delta G$ 剔除热力学不可行路径 先验知识指导搜索,避免盲目探索 统一能量尺度 有机反应:边权重 = 键能变化 + 商业可获得性 酶促反应:边权重 = 催化效率转化的等效能量收益 自进化知识图谱 Memory Node 记录失败路径 思考记忆迭代,持续增强逆合成能力
节点 属性 说明 molecule ADMET 分子节点,关联药理属性 substructure - 子结构/片段 bond BDE 化学键,存储键离解能 reaction $\Delta G$, Condition 反应节点 enzyme Type, Pathway 酶节点,EC分类与代谢路径 memory - 记忆节点,记录失败路径 核心关系 molecule → reaction: 分子参与反应 molecule contain substructure: 分子包含子结构 substructure ↔ bond: 子结构通过键连接成分子 enzyme catalysis molecule: 酶催化分子 reaction → memory: 反应结果写入记忆
Agent 职责 机制 Explorer AOT* 搜索混合合成路径 实时查询 BDE 值评估路径 Physicist 能量观点热力学剪枝 高 BDE 键且无耦合酶时强制剪枝 Virtual Lab 条件兼容性检查 溶剂/pH 冲突检测,酶失活预警 Memory 记忆迭代更新权重 记录失败路径,动态演化图谱
当前数据层次 层次 数据源 当前用途 数据信息 核心建图 ORD 有机反应节点与条件属性 反应物/试剂/溶剂/催化剂、温度/压力/时间、产物/产率、分析方法、来源 核心建图 BKMS 酶促反应节点与酶类别语义 EC 编号、反应式、BRENDA/KEGG/MetaCyc/SABIO-RK 对齐、Pathway、配平检查 补充注释 BRENDA 酶性质与实验条件补充 pH/温度最适、抑制剂、辅因子、定位、稳定性、底物产物 补充注释 M-CSA 活性位点与催化残基补充 mcsa_id、残基角色、链信息、功能位置 补充注释 UniProt 蛋白序列与物种注释 organism、sequence_length、ec_number、GO、domain、reviewed 预留扩展 SABIO-RK 动力学参数补全 计划补充 Km / Kcat / Ki 等反应速率参数 当前进展 主线已明确:先用 ORD + BKMS 搭建有机反应与酶促反应的统一骨架。 正在小规模构建图谱实体:molecule / reaction / enzyme / condition 五类核心对象已有对应数据源。
ORD 提供的结构化反应维度 模块 关键字段 可映射到图谱的对象 Inputs reactant / reagent / solvent / catalyst 分子节点、角色边 Conditions temperature / pressure / time / stirring 条件节点、反应属性 Outcomes product / yield / conversion 产物节点、结果边 Analyses LC / GC / NMR / MS / LCMS 等 证据与验证标签 Provenance USPTO / HTE / DOI / ELN 数据来源与可信度标签
BKMS 反应分类统计(42,539 条) EC 一级类别 名称 反应数 EC 1 氧化还原酶 12,501 EC 2 转移酶 11,641 EC 3 水解酶 7,381 EC 4 裂解酶 2,394 EC 5 异构酶 1,010 EC 6 连接酶 1,298 EC 7 转位酶 608