电池热管理状态估计技术综述：从卡尔曼滤波到物理感知 AI

2026-02-08

Engineering

字数统计: 3.1k字 | 阅读时长≈ 11分钟

1. 核心问题与场景定义

在大型电池包热管理系统（BMS）中，准确获取全场温度分布是实现精细化控制和热失控预警的前提。然而，受限于成本、通信带宽和绝缘要求，实际工程中无法在每个电芯表面布置传感器。

典型的工程场景如下：

物理对象：将电池包离散化为 $N=100$ 个节点的导热网络。
观测限制：仅配置 $M=20$ 个温度传感器。
技术目标：利用这 20 个稀疏观测点的数据，通过算法重构出全部 100 个节点的温度分布，特别是内部不可测区域的核心温度。

本文将探讨解决该问题的三种技术路径：传统卡尔曼滤波、降维模型（POD）以及物理感知 AI（Physics-Informed AI）。

2. 基于物理模型的估计：卡尔曼滤波 (Kalman Filter)

卡尔曼滤波（KF）是工业界最成熟的状态估计算法。其核心思想是基于物理模型的预测与基于传感器观测的修正相结合，实现最小方差估计。

2.1 核心矩阵与误差定义（100节点 / 20传感器场景）

在进入算法之前，必须严格区分系统中的各类矩阵及其物理含义。

**状态向量 $x$ ($100 \times 1$)**：包含全场 100 个节点的温度真实状态。
**系统矩阵 $A$ ($100 \times 100$)**：表征物理导热网络，描述热量在相邻节点间的传导与耗散关系。
**观测矩阵 $H$ ($20 \times 100$)**：提取矩阵（Mask）。对应 20 个传感器位置的元素为 1，其余为 0。物理意义是“在 100 个状态中，系统仅能观测到这 20 个”。
测量噪声矩阵 $R$ ($20 \times 20$)：表征传感器本身的硬件误差（如 NTC 精度 $\pm 1^\circ\text{C}$）。通常为对角阵，因为传感器间的电噪声互不干扰。
**过程噪声矩阵 $Q$ ($100 \times 100$)**：表征物理模型的不完美（如未建模的风速扰动）带来的系统误差。
协方差矩阵 $P$ ($100 \times 100$)：算法的核心。表征当前模型对温度估计的不确定度（误差方差）。
- 注：初始时刻的 $P_0$ 通常设为对角阵，代表系统刚上电时，对各节点温度的初始猜测极不确定，且假设各点误差互不相关。

2.2 稀疏观测重构全场的原理

仅通过 20 个点推测 100 个点的数学基础，在于协方差矩阵 $P$ 的非对角元素（协方差）的动态生成。

预测阶段的协方差建立：物理矩阵 $A$ 将热传导关系引入 $P$。即使初始时刻节点 20（有传感器）与节点 21（无传感器）无统计相关性（$P_0$ 为对角阵），经过一步预测计算后，由于物理上的导热连接，两者在 $P$ 矩阵中的协方差 $P_{20,21}$ 将变为非零值。
更新阶段的全场修正：计算卡尔曼增益 $K$ 时，由于 $P$ 存在非零的非对角项，计算得出的 $K$ 矩阵（$100 \times 20$）的第 21 行将是非零向量。
最终结果：传感器 20 的实测偏差，通过 $K$ 矩阵的非零系数作为桥梁，实现了对未观测节点 21 的状态修正。

2.3 离散卡尔曼滤波标准 5 步流程

在嵌入式控制器（MCU）中，算法按固定周期（如 10ms）循环执行以下五个步骤。
注：带有上标 $^-$ 的变量代表先验（Priori），即仅依靠物理模型推算、尚未引入当前时刻传感器数据的结果；无上标的变量代表后验（Posteriori），即融合实测数据后的最终确定值。

阶段一：时间更新（预测步）

此阶段系统不读取传感器，完全基于系统自身惯性和物理方程进行前向推演。

1. 状态预测（计算先验温度）：

$$
\hat{x}k^- = A \hat{x}{k-1} + B u_k
$$

物理含义：基于上一时刻的温度分布，叠加当前时刻的电流产热输入 $u_k$，计算当前时刻的温度分布趋势。热量开始在 100 个节点间传导。

2. 协方差预测（计算先验误差扩散）：

$$
P_k^- = A P_{k-1} A^T + Q
$$

物理含义：随时间推移，物理模型的不确定性必然增加（引入了 $Q$）。更关键的是，乘法操作 $A P A^T$ 将原本局部的误差顺着导热路径扩散至全局，在这一步正式建立起了观测节点与未观测节点之间的误差协方差。

阶段二：测量更新（修正步）

此阶段系统引入 20 个传感器的当前实测值 $z_k$，对预测偏离进行“抢救”与修正。

3. 计算卡尔曼增益（计算信任权重）：

$$
K_k = P_k^- H^T (H P_k^- H^T + R)^{-1}
$$

物理含义：其标量逻辑近似于 $K \approx P / (P+R)$。当模型极度不确定（$P^-$ 很大）而传感器精准（$R$ 很小）时，增益趋近于 1（信任传感器）；反之则趋近于 0（信任物理模型）。
维度映射：由于 $H$ 的截取作用，括号内对求逆的计算量仅为 $20 \times 20$。最终生成的 $K_k$ 维度为 $100 \times 20$。

4. 状态更新（输出最终温度）：

$$
\hat{x}_k = \hat{x}_k^- + K_k (z_k - H \hat{x}_k^-)
$$

物理含义：最终温度 = 先验预测温度 + 信任权重 $\times$ 观测残差（实测值减去预测观测值）。
全场修正：观测残差维度为 $20 \times 1$，乘以 $100 \times 20$ 的增益矩阵后，扩展为 $100 \times 1$ 的修正向量，稳稳叠加至全场 100 个节点上。

5. 协方差更新（信心重塑）：

$$
P_k = (I - K_k H) P_k^-
$$

物理含义：获取了传感器信息后，系统的不确定性必然下降。公式通过减去一项修正值，将膨胀的先验误差 $P_k^-$ 缩小为后验误差 $P_k$，为下一控制周期做准备。
为何是减去 $K_k H P_k^-$？（维度视角的解析）：
这里包含了一个精妙的维度投影过程。要从全场误差 $P^-$ ($100 \times 100$) 中扣减消除掉的误差，必须先通过 $H \cdot P^-$ 将全场误差降维投影到 20 个传感器的观测空间 ($20 \times 100$)；随后，再通过增益矩阵 $K$ 将这部分被传感器消除的误差升维映射回全场 100 个节点 ($100 \times 100$)，最终完成对全场协方差的矩阵扣减。

3. 数据驱动的降维方法：本征正交分解 (POD)

对于高维系统，直接运行高阶 KF 算力消耗较大。POD（Proper Orthogonal Decomposition）提供了一种基于数据特征的降维思路（Gappy POD 算法）。

核心公式：

$$
T(x, t) \approx \sum_{i=1}^{r} \phi_i(x) \cdot a_i(t) = \Phi_r(x) \cdot a(t)
$$

其中 $\Phi_r(x)$ 为截断后的空间正交基模态，$a(t)$ 为对应的时间系数。

3.1 严格实施流程

离线建模与基底提取：对高保真 CFD 仿真数据（Snapshots）进行奇异值分解（SVD），得到一个恒定且完备的全场正交基矩阵 $\Phi_{full}$（维度为 $100 \times 100$）。
能量截断（降维）：根据特征值（能量）占比，我们人为地进行截断，只提取前 $r$ 个（例如 $r=5$）包含系统 99% 以上能量的主导空间模态，构成**降维基矩阵 $\Phi_r$**（维度变为 $100 \times 5$）。
在线重构（Gappy POD）：
- 获取 20 个传感器的实时观测数据向量 $y$（$20 \times 1$）。
- 从降维基矩阵 $\Phi_r$ 中，提取与传感器物理位置对应的 20 行，得到**传感器观测空间内的局部模态矩阵 $\Phi_s$**（维度为 $20 \times 5$）。
- 此时，这是一个超定方程组（20 个方程求解 5 个未知数）。通过最小二乘法求解当前时刻的最佳时间系数 $a(t)$（$5 \times 1$）：

$$
a(t) = (\Phi_s^T \Phi_s)^{-1} \Phi_s^T y(t)
$$

全场映射：利用求解出的 5 个低维时间系数 $a(t)$，乘以完整的降维基矩阵，还原全场 100 个节点的温度 $T_{full}$（$100 \times 1$）：

$$
T_{full} = \Phi_r \cdot a(t)
$$

3.2 方法对比与进阶

POD 优劣势：计算量极低（仅需解 $5 \times 5$ 矩阵求逆），在稳态或典型工况下空间重构精度极高。但在非典型工况（如流道堵塞导致的未知温度场分布，超出原 Snapshot 空间）下，由于缺乏物理机制的实时约束，泛化能力较弱。
**进阶方案：ROM-KF (降阶卡尔曼)**：结合 POD 的空间降维能力与 KF 的动态滤波能力。在芯片中运行 KF，但将状态变量从 100 个温度物理节点，转换（投影）为 5 个模态系数 $a(t)$。既保留了物理系统的动态演化特性，又大幅降低了嵌入式 MCU 的算力负担。

4. 人工智能的融合：物理感知 AI (Physics-Informed AI)

AI 在工程落地的核心价值在于处理强非线性和未知物理参数，而非单纯替代传统算法。

4.1 场景一：基于 RNN 的在线参数辨识 (Digital Twin)

工程痛点：物理模型矩阵 $A$ 通常为固定值，但电池全生命周期中，内阻 $R$ 和热容 $C$ 会随老化发生漂移，导致模型失效。
**解决方案：物理信息训练 (Physics-Informed Training)**。
- 构建 RNN 模型，输入历史电流 $I$ 和温度 $T$。
- 网络输出并非直接是温度，而是预测物理参数 $\hat{R}, \hat{C}$。
- 关键约束：将 $\hat{R}, \hat{C}$ 代入物理微分方程计算预测温度 $T_{pred}$，并以 $T_{pred}$ 与 $T_{true}$ 的误差作为损失函数。
效果：实现了参数的自适应更新，使物理模型具备了“数字孪生”的实时跟随能力。

4.2 场景二：基于 PINN 的离线分析与质量检测

工程痛点：在传感器稀疏的情况下，需要反演流场或辨识未知区域的热物性参数。
**解决方案：数据同化 (Data Assimilation)**。
- 利用 PINN (Physics-Informed Neural Networks) 融合稀疏测量数据。
- 损失函数设计：

$$
Loss = Loss_{Data} + \lambda \cdot Loss_{PDE}
$$

（数据误差 + 物理方程残差）。

可信度评估：
- 仅在训练集验证属于过拟合，不可信。
- 工程可信标准需包含：盲测 (Blind Test)（预测未参与训练的关键点）、物理一致性检查（如质量/能量守恒验证）以及**不确定性量化 (UQ)**。

5. 工业级 AI 落地的挑战与可信架构

在储能与汽车工业中，可靠性优于单纯的精度。AI 的直接应用面临以下挑战：

5.1 AI 的工程局限性

**不可解释性 (Black Box)**：难以进行故障定责，难以通过功能安全认证（ISO 26262）。
泛化能力弱：本质为高维插值。在训练数据覆盖之外的极端工况（如超低温环境），可能输出违反逻辑的控制指令。
缺乏物理约束：纯数据驱动模型可能预测出违反能量守恒定律的结果（如无输入自发热）。
部署困难：工业现场数据噪声大，且深度模型在低成本 MCU 上推理延迟高。

5.2 可信 AI (Trusted AI) 架构设计

为了克服上述缺陷，建议采用“物理保底，AI 辅助”的纵深防御架构：

架构防御：残差学习 (Residual Learning)
系统输出定义为 $Y_{Final} = Y_{Physics} + w \cdot Y_{AI}$。
物理模型负责 90% 的基础控制，确保系统下限安全；AI 仅用于预测残差（非线性误差修正）。当工况异常时，降低权重 $w$，回退至纯物理模式。
训练防御：物理约束 (PINN)
在模型训练阶段，必须将热力学方程加入损失函数，强迫神经网络在解空间内遵循能量守恒定律。
部署防御：安全门控 (Safety Gate)
在控制输出端设置物理边界检查逻辑。一旦 AI 输出的物理参数超限（例如预测内阻为负值），立即熔断 AI 通路，强制切换至保守控制策略，确保系统本质安全。

打赏