电池热管理状态估计技术综述:从卡尔曼滤波到物理感知 AI

1. 核心问题与场景定义

在大型电池包热管理系统(BMS)中,准确获取全场温度分布是实现精细化控制和热失控预警的前提。然而,受限于成本、通信带宽和绝缘要求,实际工程中无法在每个电芯表面布置传感器。

典型的工程场景如下:

  • 物理对象:将电池包离散化为 $N=100$ 个节点的导热网络。
  • 观测限制:仅配置 $M=20$ 个温度传感器。
  • 技术目标:利用这 20 个稀疏观测点的数据,通过算法重构出全部 100 个节点的温度分布,特别是内部不可测区域的核心温度。

本文将探讨解决该问题的三种技术路径:传统卡尔曼滤波、降维模型(POD)以及物理感知 AI(Physics-Informed AI)。


2. 基于物理模型的估计:卡尔曼滤波 (Kalman Filter)

卡尔曼滤波(KF)是工业界最成熟的状态估计算法。其核心思想是基于物理模型的预测与基于传感器观测的修正相结合,实现最小方差估计。

2.1 核心矩阵与误差定义(100节点 / 20传感器场景)

在进入算法之前,必须严格区分系统中的各类矩阵及其物理含义。

  • **状态向量 $x$ ($100 \times 1$)**:包含全场 100 个节点的温度真实状态。
  • **系统矩阵 $A$ ($100 \times 100$)**:表征物理导热网络,描述热量在相邻节点间的传导与耗散关系。
  • **观测矩阵 $H$ ($20 \times 100$)**:提取矩阵(Mask)。对应 20 个传感器位置的元素为 1,其余为 0。物理意义是“在 100 个状态中,系统仅能观测到这 20 个”。
  • 测量噪声矩阵 $R$ ($20 \times 20$):表征传感器本身的硬件误差(如 NTC 精度 $\pm 1^\circ\text{C}$)。通常为对角阵,因为传感器间的电噪声互不干扰。
  • **过程噪声矩阵 $Q$ ($100 \times 100$)**:表征物理模型的不完美(如未建模的风速扰动)带来的系统误差。
  • 协方差矩阵 $P$ ($100 \times 100$):算法的核心。表征当前模型对温度估计的不确定度(误差方差)
    • 注:初始时刻的 $P_0$ 通常设为对角阵,代表系统刚上电时,对各节点温度的初始猜测极不确定,且假设各点误差互不相关。

2.2 稀疏观测重构全场的原理

仅通过 20 个点推测 100 个点的数学基础,在于协方差矩阵 $P$ 的非对角元素(协方差)的动态生成。

  1. 预测阶段的协方差建立:物理矩阵 $A$ 将热传导关系引入 $P$。即使初始时刻节点 20(有传感器)与节点 21(无传感器)无统计相关性($P_0$ 为对角阵),经过一步预测计算后,由于物理上的导热连接,两者在 $P$ 矩阵中的协方差 $P_{20,21}$ 将变为非零值。
  2. 更新阶段的全场修正:计算卡尔曼增益 $K$ 时,由于 $P$ 存在非零的非对角项,计算得出的 $K$ 矩阵($100 \times 20$)的第 21 行将是非零向量。
  3. 最终结果:传感器 20 的实测偏差,通过 $K$ 矩阵的非零系数作为桥梁,实现了对未观测节点 21 的状态修正。

2.3 离散卡尔曼滤波标准 5 步流程

在嵌入式控制器(MCU)中,算法按固定周期(如 10ms)循环执行以下五个步骤。
注:带有上标 $^-$ 的变量代表先验(Priori),即仅依靠物理模型推算、尚未引入当前时刻传感器数据的结果;无上标的变量代表后验(Posteriori),即融合实测数据后的最终确定值。

阶段一:时间更新(预测步)

此阶段系统不读取传感器,完全基于系统自身惯性和物理方程进行前向推演。

1. 状态预测(计算先验温度)

$$
\hat{x}k^- = A \hat{x}{k-1} + B u_k
$$

  • 物理含义:基于上一时刻的温度分布,叠加当前时刻的电流产热输入 $u_k$,计算当前时刻的温度分布趋势。热量开始在 100 个节点间传导。

2. 协方差预测(计算先验误差扩散)

$$
P_k^- = A P_{k-1} A^T + Q
$$

  • 物理含义:随时间推移,物理模型的不确定性必然增加(引入了 $Q$)。更关键的是,乘法操作 $A P A^T$ 将原本局部的误差顺着导热路径扩散至全局,在这一步正式建立起了观测节点与未观测节点之间的误差协方差。

阶段二:测量更新(修正步)

此阶段系统引入 20 个传感器的当前实测值 $z_k$,对预测偏离进行“抢救”与修正。

3. 计算卡尔曼增益(计算信任权重)

$$
K_k = P_k^- H^T (H P_k^- H^T + R)^{-1}
$$

  • 物理含义:其标量逻辑近似于 $K \approx P / (P+R)$。当模型极度不确定($P^-$ 很大)而传感器精准($R$ 很小)时,增益趋近于 1(信任传感器);反之则趋近于 0(信任物理模型)。
  • 维度映射:由于 $H$ 的截取作用,括号内对求逆的计算量仅为 $20 \times 20$。最终生成的 $K_k$ 维度为 $100 \times 20$。

4. 状态更新(输出最终温度)

$$
\hat{x}_k = \hat{x}_k^- + K_k (z_k - H \hat{x}_k^-)
$$

  • 物理含义:最终温度 = 先验预测温度 + 信任权重 $\times$ 观测残差(实测值减去预测观测值)。
  • 全场修正:观测残差维度为 $20 \times 1$,乘以 $100 \times 20$ 的增益矩阵后,扩展为 $100 \times 1$ 的修正向量,稳稳叠加至全场 100 个节点上。

5. 协方差更新(信心重塑)

$$
P_k = (I - K_k H) P_k^-
$$

  • 物理含义:获取了传感器信息后,系统的不确定性必然下降。公式通过减去一项修正值,将膨胀的先验误差 $P_k^-$ 缩小为后验误差 $P_k$,为下一控制周期做准备。
  • 为何是减去 $K_k H P_k^-$?(维度视角的解析)
    这里包含了一个精妙的维度投影过程。要从全场误差 $P^-$ ($100 \times 100$) 中扣减消除掉的误差,必须先通过 $H \cdot P^-$ 将全场误差降维投影到 20 个传感器的观测空间 ($20 \times 100$);随后,再通过增益矩阵 $K$ 将这部分被传感器消除的误差升维映射回全场 100 个节点 ($100 \times 100$),最终完成对全场协方差的矩阵扣减。

3. 数据驱动的降维方法:本征正交分解 (POD)

对于高维系统,直接运行高阶 KF 算力消耗较大。POD(Proper Orthogonal Decomposition)提供了一种基于数据特征的降维思路(Gappy POD 算法)。

核心公式

$$
T(x, t) \approx \sum_{i=1}^{r} \phi_i(x) \cdot a_i(t) = \Phi_r(x) \cdot a(t)
$$

其中 $\Phi_r(x)$ 为截断后的空间正交基模态,$a(t)$ 为对应的时间系数。

3.1 严格实施流程

  1. 离线建模与基底提取:对高保真 CFD 仿真数据(Snapshots)进行奇异值分解(SVD),得到一个恒定且完备的全场正交基矩阵 $\Phi_{full}$(维度为 $100 \times 100$)。
  2. 能量截断(降维):根据特征值(能量)占比,我们人为地进行截断,只提取前 $r$ 个(例如 $r=5$)包含系统 99% 以上能量的主导空间模态,构成**降维基矩阵 $\Phi_r$**(维度变为 $100 \times 5$)。
  3. 在线重构(Gappy POD)
    • 获取 20 个传感器的实时观测数据向量 $y$($20 \times 1$)。
    • 从降维基矩阵 $\Phi_r$ 中,提取与传感器物理位置对应的 20 行,得到**传感器观测空间内的局部模态矩阵 $\Phi_s$**(维度为 $20 \times 5$)。
    • 此时,这是一个超定方程组(20 个方程求解 5 个未知数)。通过最小二乘法求解当前时刻的最佳时间系数 $a(t)$($5 \times 1$):

$$
a(t) = (\Phi_s^T \Phi_s)^{-1} \Phi_s^T y(t)
$$

  1. 全场映射:利用求解出的 5 个低维时间系数 $a(t)$,乘以完整的降维基矩阵,还原全场 100 个节点的温度 $T_{full}$($100 \times 1$):

$$
T_{full} = \Phi_r \cdot a(t)
$$

3.2 方法对比与进阶

  • POD 优劣势:计算量极低(仅需解 $5 \times 5$ 矩阵求逆),在稳态或典型工况下空间重构精度极高。但在非典型工况(如流道堵塞导致的未知温度场分布,超出原 Snapshot 空间)下,由于缺乏物理机制的实时约束,泛化能力较弱。
  • **进阶方案:ROM-KF (降阶卡尔曼)**:结合 POD 的空间降维能力与 KF 的动态滤波能力。在芯片中运行 KF,但将状态变量从 100 个温度物理节点,转换(投影)为 5 个模态系数 $a(t)$。既保留了物理系统的动态演化特性,又大幅降低了嵌入式 MCU 的算力负担。

4. 人工智能的融合:物理感知 AI (Physics-Informed AI)

AI 在工程落地的核心价值在于处理强非线性未知物理参数,而非单纯替代传统算法。

4.1 场景一:基于 RNN 的在线参数辨识 (Digital Twin)

  • 工程痛点:物理模型矩阵 $A$ 通常为固定值,但电池全生命周期中,内阻 $R$ 和热容 $C$ 会随老化发生漂移,导致模型失效。
  • **解决方案:物理信息训练 (Physics-Informed Training)**。
    • 构建 RNN 模型,输入历史电流 $I$ 和温度 $T$。
    • 网络输出并非直接是温度,而是预测物理参数 $\hat{R}, \hat{C}$。
    • 关键约束:将 $\hat{R}, \hat{C}$ 代入物理微分方程计算预测温度 $T_{pred}$,并以 $T_{pred}$ 与 $T_{true}$ 的误差作为损失函数。
  • 效果:实现了参数的自适应更新,使物理模型具备了“数字孪生”的实时跟随能力。

4.2 场景二:基于 PINN 的离线分析与质量检测

  • 工程痛点:在传感器稀疏的情况下,需要反演流场或辨识未知区域的热物性参数。
  • **解决方案:数据同化 (Data Assimilation)**。
    • 利用 PINN (Physics-Informed Neural Networks) 融合稀疏测量数据。
    • 损失函数设计

$$
Loss = Loss_{Data} + \lambda \cdot Loss_{PDE}
$$

(数据误差 + 物理方程残差)。

  • 可信度评估
    • 仅在训练集验证属于过拟合,不可信。
    • 工程可信标准需包含:盲测 (Blind Test)(预测未参与训练的关键点)、物理一致性检查(如质量/能量守恒验证)以及**不确定性量化 (UQ)**。

5. 工业级 AI 落地的挑战与可信架构

在储能与汽车工业中,可靠性优于单纯的精度。AI 的直接应用面临以下挑战:

5.1 AI 的工程局限性

  1. **不可解释性 (Black Box)**:难以进行故障定责,难以通过功能安全认证(ISO 26262)。
  2. 泛化能力弱:本质为高维插值。在训练数据覆盖之外的极端工况(如超低温环境),可能输出违反逻辑的控制指令。
  3. 缺乏物理约束:纯数据驱动模型可能预测出违反能量守恒定律的结果(如无输入自发热)。
  4. 部署困难:工业现场数据噪声大,且深度模型在低成本 MCU 上推理延迟高。

5.2 可信 AI (Trusted AI) 架构设计

为了克服上述缺陷,建议采用“物理保底,AI 辅助”的纵深防御架构:

  1. 架构防御:残差学习 (Residual Learning)
    系统输出定义为 $Y_{Final} = Y_{Physics} + w \cdot Y_{AI}$。
    物理模型负责 90% 的基础控制,确保系统下限安全;AI 仅用于预测残差(非线性误差修正)。当工况异常时,降低权重 $w$,回退至纯物理模式。

  2. 训练防御:物理约束 (PINN)
    在模型训练阶段,必须将热力学方程加入损失函数,强迫神经网络在解空间内遵循能量守恒定律。

  3. 部署防御:安全门控 (Safety Gate)
    在控制输出端设置物理边界检查逻辑。一旦 AI 输出的物理参数超限(例如预测内阻为负值),立即熔断 AI 通路,强制切换至保守控制策略,确保系统本质安全。

打赏
  • © 2020-2026 Yu Xia
  • Powered by Hexo Theme Ayer
    • PV:
    • UV:

Buy me a cup of coffee~

支付宝
微信