STM32 AFCI 方案 TensorBoard 使用指南：AI 模型调优可视化终极方案

STM32 AFCI（AI 故障检测）方案中，TensorBoard 是核心可视化工具，通过记录训练日志、直观呈现模型指标与参数变化，可快速优化超参（学习率、Batch Size 等）、排查过拟合 / 权重更新异常，核心价值是将 “盲调参数” 转为 “数据驱动调优”，大幅缩短 AFCI 模型开发周期。

资料获取：【应用笔记】LAT1422 STM32 AFCI 方案 TensorBoard 的使用介绍

1. 核心价值：AFCI 场景下的 3 大作用

1.1 指标监控与对比

实时跟踪 AFCI 关键指标，支持多组超参横向对比，重点关注：

核心指标：准确率（Accuracy）、精准率（Precision）、召回率（Recall）；
AFCI 专属指标：漏报率（1-Recall）、误报相关（False Positives/False Negatives）；
优化目标：平衡精准率（减少误报）与召回率（降低漏报）。

1.2 模型状态诊断

权重 / 偏置分布：通过直方图判断参数更新是否正常，避免梯度消失 / 爆炸；
训练趋势分析：通过损失曲线（Loss）收敛情况，判断模型是否过拟合 / 欠拟合；
超参效果验证：快速定位最优超参组合（如学习率、Batch Size、早停耐心值）。

1.3 远程实时监控

支持通过 Web 服务远程查看训练进度，适配 AFCI 模型长时间训练场景（如多日数据训练）。

2. 快速集成：2 种方式接入 AFCI 模型

TensorBoard 支持 TensorFlow Keras 的Model.fit回调与自定义训练循环，AFCI 方案中优先推荐回调方式，简单高效。

2.1 方式 1：Model.fit 回调（推荐）

通过TensorBoard回调函数自动记录日志，无需修改核心训练逻辑：

from tensorflow.keras.callbacks import TensorBoard
import datetime

# 1. 配置日志目录（按超参分组，便于对比）
# Setting01-04对应不同超参组合，AFCI方案示例：
log_dir = "logs/fit/Setting01_default"  # 默认超参：LR=0.02、BS=256、早停patience=10
# log_dir = "logs/fit/Setting02_LR0.1"  # 调整学习率=0.1
# log_dir = "logs/fit/Setting03_BS128"  # 调整Batch Size=128
# log_dir = "logs/fit/Setting04_ES15"   # 调整早停patience=15

# 2. 创建回调函数（histogram_freq=1启用权重直方图记录）
tensorboard_callback = TensorBoard(
    log_dir=log_dir,
    histogram_freq=1,  # 每1个epoch记录一次权重分布
    update_freq="epoch",  # 按epoch记录指标（可选"batch"或具体数值）
    write_graph=True
)

# 3. 接入AFCI模型训练（加入callbacks列表）
model.fit(
    train_dataset,
    epochs=200,
    validation_data=val_dataset,
    callbacks=[tensorboard_callback, early_stopping, reduce_lr]  # 搭配早停、学习率衰减
)

2.2 方式 2：自定义训练循环（适配复杂场景）

若 AFCI 模型使用tf.GradientTape()自定义训练，通过tf.summary手动记录指标：

# 1. 创建日志写入器
log_dir = "logs/custom/Setting01_default"
summary_writer = tf.summary.create_file_writer(log_dir)

# 2. 训练循环中手动记录指标
with summary_writer.as_default():
    for step, (x, y) in enumerate(train_dataset):
        with tf.GradientTape() as tape:
            y_pred = model(x, training=True)
            loss = loss_fn(y, y_pred)
        
        # 记录训练损失（step为时间戳，便于时序展示）
        tf.summary.scalar("train-loss", float(loss), step=step)
        # 记录AFCI关键指标（如精准率）
        precision = tf.keras.metrics.Precision()(y, y_pred)
        tf.summary.scalar("train-precision", float(precision), step=step)

3. 核心功能用法：AFCI 调优实战

3.1 Scalars（指标可视化核心）

（1）关键操作

启动命令：终端输入 tensorboard --logdir logs/fit，浏览器访问 http://localhost:6006；
核心操作：勾选多组超参（如 Setting01-04），对比同一指标在训练集 / 验证集的变化。

（2）AFCI 调优示例

学习率优化：对比 LR=0.02 与 LR=0.1 的 Precision 曲线，LR=0.1 初期收敛快但后期震荡，LR=0.02 更稳定；
Batch Size 影响：BS=128 比 BS=256 收敛慢，但验证集 Precision 更高（泛化性更好）；
早停参数：patience=15 比 patience=10 更能避免过早停止训练，召回率提升 3%。

3.2 Distributions（参数分布跟踪）

作用：查看权重 / 偏置随 epoch 的分布变化，判断参数更新是否正常；
AFCI 场景应用：若某卷积层权重分布长期集中在 0 附近，说明梯度消失，需调整学习率或激活函数。

3.3 Histograms（直方图可视化）

呈现形式：以 3D 直方图展示参数在不同 epoch 的分布叠加；
核心价值：快速发现异常参数（如某层偏置值全部为负），定位模型训练故障。

4. 远程监控：长时间训练必备

4.1 启动 Web 服务

终端命令：tensorboard --logdir 日志目录绝对路径（如 tensorboard --logdir D:AFCIlogsfit）；
注意事项：需开放端口（默认 6006），远程访问时用 “服务器 IP:6006”（如 http://192.168.1.100:6006）。

4.2 实时监控内容

训练进度：epoch 完成比例、当前指标数值；
趋势预警：若验证集 Loss 持续上升，及时终止训练调整超参；
多组对比：同时监控不同超参组合，无需等待全部训练完成。

TensorBoard 在 AFCI 方案中的核心是 “可视化驱动调优”：通过日志记录将抽象的训练过程转化为直观图表，重点解决 “超参盲目调整”“模型状态难诊断” 两大痛点。实际应用时，建议按 “固定单一变量→对比指标变化→锁定最优组合” 的逻辑，优先优化学习率、Batch Size、早停耐心值等关键超参，再扩展到模型结构调整。