wkc/ccdi

Fork 0

Files

wkc 2fd93463b8 整理docs目录并补充文档规范

2026-03-17 15:06:59 +08:00

14 KiB

Raw Blame History

项目流水标签功能设计

背景

当前项目已经具备两条银行流水入库链路：

批量上传他行流水文件：/ccdi/file-upload/batch
拉取本行信息：/ccdi/file-upload/pull-bank-info

两条链路最终都会把流水写入 ccdi_bank_statement，但系统还没有对项目内流水执行统一打标，也没有独立的手动重算能力。

本次需求要求：

在异步批量上传流水文件全部处理完成后，自动对项目内流水进行打标
在拉取本行信息任务全部处理完成后，也自动对项目内流水进行打标
提供手动接口，支持重新计算项目内标签
根据 assets/大额交易.csv 中的模型信息实现第一批规则
避免重复打标
同时支持两类结果：
- 单条流水异常：对具体流水打标
- 对象区间异常：对项目中的对象打标
打标结果中保留足够的异常原因信息，便于后续页面清晰展示

目标

为项目建立可扩展的流水标签能力，而不是只为“大额交易”写一次性逻辑
支持自动触发和手动触发两种标签重算方式
用代码中的 Mapper XML 固化技术口径 SQL，不做运行时 SQL 配置化
通过统一结果表保存标签命中结果和异常原因快照
保证同一项目不会同时触发多个重算任务
使用线程池并行执行规则，提高重算效率

非目标

本期不新增前端页面展示
本期不实现动态 SQL 配置平台
本期不把标签计算失败与流水导入失败绑定为同一事务
本期不实现除大额交易外的其他模型
本期不实现对象级结果到具体来源批次的多来源追溯

现状分析

流水导入现状

批量上传主链路位于：

ccdi-project/src/main/java/com/ruoyi/ccdi/project/service/impl/CcdiFileUploadServiceImpl.java

当前关键行为：

每个文件独立异步上传、轮询解析、拉取流水、写入 ccdi_bank_statement
文件全部提交后，调度线程立即结束
没有“当前批次所有异步任务完成后的收尾回调”

拉取本行信息主链路同样位于 CcdiFileUploadServiceImpl，每个身份证号会生成一条上传记录并异步拉取流水，但也没有“全部任务完成后”的统一收尾逻辑。

参数配置现状

模型参数位于：

ccdi_model_param
CcdiModelParamServiceImpl

系统已经支持：

项目默认参数与自定义参数切换
通过 project_id = 0 读取系统默认参数
通过 project_id = 当前项目 读取项目自定义参数

因此阈值类规则可以直接复用现有参数体系。

流水查询现状

流水明细能力位于：

CcdiBankStatementMapper.xml
CcdiBankStatementController
CcdiBankStatementServiceImpl

当前流水表中已经具备标签计算所需的一部分字段：

project_id
group_id
batch_id，其业务语义可作为 log_id
bank_statement_id
cret_no

方案对比

方案一：把每个规则直接写死在 Service 中

优点：

开发速度快
初期实现简单

缺点：

第二个模型接入时会迅速膨胀为大段 if/else
SQL、规则元数据、结果写入逻辑会散落在多个类里
不利于后续维护和测试

方案二：规则元数据入库，SQL 写在 Mapper XML 中

优点：

规则展示信息可配置
技术口径 SQL 保持在代码中，便于评审和测试
后续新增模型的扩展路径清晰

缺点：

第一版需要同时补规则表、结果表、任务表和执行框架

方案三：规则元数据和 SQL 都配置化

优点：

表面上扩展灵活

缺点：

动态 SQL 的安全性、可测试性、可维护性都较差
与当前项目代码式 MyBatis 规则体系不一致
不符合本次“SQL 用 Mapper + XML 实现”的约束

最终方案

采用方案二：

规则元数据入库
技术口径 SQL 固化在 Mapper + XML
统一结果表保存标签命中
统一任务调度器管理自动触发、手动触发和项目级互斥
规则级任务在线程池中并行执行

详细设计

一、数据模型设计

1. 标签规则定义表

建议新增：ccdi_bank_tag_rule

建议字段：

id
model_code
model_name
rule_code
rule_name
indicator_code
result_type：STATEMENT / OBJECT
risk_level
business_caliber
enabled
sort_order
create_by
create_time
update_by
update_time
remark

用途：

保存展示和业务元数据
不保存技术 SQL
作为结果表中的规则元信息来源

第一版初始化“大额交易” 8 条规则元数据：

房车消费支出交易
税务支出交易
大额单笔收入
累计收入超限
年流水交易额超限
大额存现交易
短时间多次存现
大额转账交易

2. 标签结果表

建议新增：ccdi_bank_statement_tag_result

建议字段：

id
project_id
model_code
model_name
rule_code
rule_name
indicator_code
result_type
risk_level
bank_statement_id
object_type
object_key
group_id
log_id
reason_detail
business_caliber_snapshot
hit_value_snapshot
create_by
create_time
update_by
update_time
remark

字段约束：

流水级结果必须保存：
- bank_statement_id
- group_id
- log_id
对象级结果必须保存：
- object_type
- object_key
对象级结果不写：
- group_id
- log_id
- bank_statement_id

唯一约束建议拆分为两组：

流水级唯一键：project_id + rule_code + bank_statement_id
对象级唯一键：project_id + rule_code + object_type + object_key

用途：

防止重复打标
保留足够的异常原因快照，供后续页面展示

3. 标签任务执行表

建议新增：ccdi_bank_tag_task

建议字段：

id
project_id
trigger_type：AUTO_BATCH_UPLOAD / AUTO_PULL_BANK_INFO / MANUAL
model_code
status：RUNNING / SUCCESS / PARTIAL_FAILED / FAILED
need_rerun
success_rule_count
failed_rule_count
hit_count
error_message
start_time
end_time
create_by
create_time
update_by
update_time

用途：

记录当前项目是否存在正在执行的重算任务
承接“自动触发补跑”标记
为后续前端展示最近一次打标状态预留基础

二、规则分型设计

第一版大额交易 8 条规则按结果类型分为两类。

1. 流水级规则

返回具体流水 bank_statement_id，并从流水表带出 group_id、batch_id(log_id)。

包括：

房车消费支出交易
税务支出交易
大额单笔收入
大额存现交易
大额转账交易

2. 对象级规则

返回对象主键和原因摘要，不绑定单条流水。

包括：

累计收入超限
年流水交易额超限
短时间多次存现

对象级结果建议使用：

object_type = STAFF_ID_CARD
object_key = 身份证号

后续如果出现亲属、账号、企业等对象级命中，可以继续扩展 object_type。

三、技术实现设计

1. SQL 落点

所有规则 SQL 均通过 Mapper + XML 实现。

建议新增：

CcdiBankTagRuleMapper
CcdiBankTagResultMapper
CcdiBankTagTaskMapper
CcdiBankTagAnalysisMapper
对应 XML

其中规则筛选 Mapper 方法按规则拆分，例如：

selectHouseOrCarExpenseStatements
selectTaxExpenseStatements
selectSingleLargeIncomeStatements
selectCumulativeIncomeObjects
selectAnnualTurnoverObjects
selectLargeCashDepositStatements
selectFrequentCashDepositObjects
selectLargeTransferStatements

2. 参数读取

阈值类规则通过现有 ccdi_model_param 获取项目当前有效参数：

若项目 config_type = default，读取 project_id = 0
若项目 config_type = custom，读取当前 project_id

第一版涉及参数包括：

SINGLE_TRANSACTION_AMOUNT
CUMULATIVE_TRANSACTION_AMOUNT
annual_turnover
LARGE_CASH_DEPOSIT
FREQUENT_CASH_DEPOSIT
FREQUENT_TRANSFER

3. 结果写入

重算开始前，先按范围删除旧结果：

手动全量：删除当前项目全部结果
手动按模型：删除当前项目指定模型结果
自动触发：按当前项目全部结果重算，保持结果与最新流水一致

删除完成后，再按规则并行写入结果。

每条规则线程内部只做：

查询命中结果
构建结果实体
批量插入结果表

规则线程内部不允许再删旧结果，避免并发线程相互覆盖。

四、触发流程设计

1. 批量上传自动触发

触发入口：

CcdiFileUploadServiceImpl.batchUploadFiles

改造方向：

当前 submitTasksAsync 需要改为收集每个文件的 CompletableFuture
使用 CompletableFuture.allOf(...) 在所有文件处理完成后统一执行批次收尾
若本批次至少有一份文件成功落库流水，则申请一次项目级标签重算

2. 拉取本行信息自动触发

触发入口：

CcdiFileUploadServiceImpl.submitPullBankInfo

改造方向：

当前 submitPullBankInfoTasks 同样收集每个身份证任务的 CompletableFuture
所有任务处理完成后统一执行批次收尾
若本批次至少有一条成功入库流水，则申请一次项目级标签重算

3. 手动触发

新增接口：

POST /ccdi/project/tags/rebuild

请求体：

projectId 必填
modelCode 选填

规则：

未传 modelCode：重算当前项目全部模型
传 modelCode：只重算指定模型

五、并发控制设计

1. 项目级互斥

要求：

同一项目任意时刻只允许一个标签重算任务运行

实现建议：

新增 ProjectTagRebuildCoordinator
以 projectId 作为互斥粒度
结合任务表 RUNNING 状态和进程内互斥结构控制

行为规则：

自动触发时若已有任务在运行：
- 不启动新的重算
- 仅把当前运行任务标记为 need_rerun = true
手动触发时若已有任务在运行：
- 直接返回“当前项目标签正在重算中，请稍后再试”

2. 自动补跑

若自动触发期间项目已有重算任务在运行：

当前任务结束后检查 need_rerun
若为 true，自动再执行一轮项目级全量重算
补跑结束后清空 need_rerun

这样可以同时满足：

防止并发重算
不丢失导入完成后的自动重算机会

六、线程池设计

采用两层调度模型。

1. 项目级任务

每个项目的重算由一个总任务负责：

控制任务生命周期
统一删旧结果
提交规则级任务
汇总执行结果

2. 规则级任务

每条规则使用线程池并行处理。

建议新增独立线程池：

tagRuleExecutor

规则级线程任务职责：

读取规则元数据
查询阈值参数
执行 Mapper SQL
批量写入结果表
返回命中数和执行状态

优点：

多条规则之间互不阻塞
后续新增模型时可复用同一套并行框架

七、失败处理设计

1. 自动触发失败

不影响流水已成功入库的数据
标签任务状态标记为 FAILED 或 PARTIAL_FAILED
记录失败规则和错误信息
不回滚已经成功写入的流水

2. 手动触发失败

接口直接返回失败
任务状态记录失败原因
已成功完成的规则结果保留

3. 单规则失败

不中断其他规则执行
整个任务按“部分失败”汇总

八、异常原因快照设计

结果表中的 reason_detail 必须能直接解释标签来源。

建议格式：

流水级：
- 摘要命中“购买房产首付款”，对手方“杭州贝壳房地产经纪有限公司”，支出金额 680000.00 元
对象级：
- 同一交易对手累计流入 60300000.00 元，超过阈值 50000001.00 元，对手方：浙江远望贸易有限公司

额外保存：

business_caliber_snapshot
hit_value_snapshot

用于后续页面直接展示“规则口径 + 命中值”。

接口设计

1. 手动重算接口

路径：POST /ccdi/project/tags/rebuild
请求体：
- projectId
- modelCode 可选
返回：
- 成功：AjaxResult.success("标签重算任务已提交")
- 失败：AjaxResult.error("当前项目标签正在重算中，请稍后再试")

2. 结果查询接口

本期不做前端展示，结果查询接口可暂缓；但后续建议预留：

项目标签汇总查询
项目标签明细查询
项目标签任务状态查询

测试设计

后端至少覆盖以下场景：

批量上传所有文件完成后会申请一次项目级重算
拉取本行信息所有任务完成后会申请一次项目级重算
手动接口支持全量重算
手动接口支持按模型重算
同一项目正在重算时，手动接口会被拒绝
同一项目自动触发期间再次触发时会标记补跑
流水级结果写入时会保存 group_id + log_id
对象级结果写入时不会保存 group_id + log_id
重复重算不会出现重复结果
参数修改后再次重算，结果会随阈值变化
单条规则失败时任务状态为 PARTIAL_FAILED

风险与缓解

风险一：同项目高频导入导致连续补跑

缓解：

自动触发期间只维护一个 need_rerun 标记，避免无限累积队列

风险二：规则级并行导致数据库写入压力上升

缓解：

为规则线程池设置合理核心线程数和队列长度
批量插入结果，避免逐条写入

风险三：对象级结果原因信息不足

缓解：

在 XML 查询阶段直接拼出可展示的原因摘要字段

后续扩展方向

新增项目标签汇总页和明细页
结合 ccdi_project 回写项目风险人数统计
支持更多模型接入
支持对象级结果下钻到关联流水集合

14 KiB Raw Blame History Unescape Escape

项目流水标签功能设计

背景

目标

非目标

现状分析

流水导入现状

参数配置现状

流水查询现状

方案对比

方案一：把每个规则直接写死在 Service 中

方案二：规则元数据入库，SQL 写在 Mapper XML 中

方案三：规则元数据和 SQL 都配置化

最终方案

详细设计

一、数据模型设计

1. 标签规则定义表

2. 标签结果表

3. 标签任务执行表

二、规则分型设计

1. 流水级规则

2. 对象级规则

三、技术实现设计

1. SQL 落点

2. 参数读取

3. 结果写入

四、触发流程设计

1. 批量上传自动触发

2. 拉取本行信息自动触发

3. 手动触发

五、并发控制设计

1. 项目级互斥

2. 自动补跑

六、线程池设计

1. 项目级任务

2. 规则级任务

七、失败处理设计

1. 自动触发失败

2. 手动触发失败

3. 单规则失败

八、异常原因快照设计

接口设计

1. 手动重算接口

2. 结果查询接口

测试设计

风险与缓解

风险一：同项目高频导入导致连续补跑

风险二：规则级并行导致数据库写入压力上升

风险三：对象级结果原因信息不足

后续扩展方向

14 KiB

Raw Blame History