实现一个刷数任务，需要思考哪些维度？

开发运维 2024-03-14 爱可生开源社区手机阅读

前言

大家好，我是田螺。

相信很多后端开发的伙伴们，都做过刷数任务了吧。今天跟大家聊聊，做好一个刷数任务，需要具备哪些后端思维。

1. 数据的备份和还原

我们做刷数任务的时候，首先要考虑的是，这些被刷的数据是否还要还原的。或者刷出问题时，需要回滚的。如果是的话，我们就要做好备份。

如果你是把数据迁移到新的表，则有可能不需要备份，这个具体问题具体分析的哈。

通常，我们在一个事务内，先备份数据，再操作刷数逻辑。

图片

当然，备份数据的方式有多种方式，可以数据库备份，比如搞一个备份表。或者文件系统快照等，在需要的时候，就还原数据。

2.刷数维度是什么？是否支持灰度?

我们刷数的时候，先确认下具体的业务需求和数据模型。然后需要确定刷数的维度是什么。

图片

客户维度：比如刷数的维度可以是一个客户。刷数的时候，把这个客户的所有数据捞取出来，在一个事务内，把客户的所有数据，按照业务的规则，刷到一个表。
账号维度：刷数的维度是账号，在执行刷数的时候，就是把这个账号的所有数据捞取出来，在一个事务内，把账号的所有数据，刷到另外一个表。

当然，还有其他维度，比如产品维度等等都可以，就看业务需求和你们的数据模型。

确认了刷数维度后，需要思考你的刷数是否支持灰度。比如确认客户维度刷数后，你实现的代码，是否支持灰度刷数，也就是说，是否支持先刷一部分客户，确认没问题后，再根据配置刷全量客户。

3. 并发考虑，刷数过程是否需要加锁。

比如，你要给一个客户相关的业务表刷数，需要考虑并发场景，简单点说，就是你在刷数的过程中，客户是否可能在做交易请求，这时候，是否可能产生脏数据。

一般情况下，可以考虑给客户维度加分布式锁，比如加锁的key是customerId。但是我们加锁的时候，肯定是不希望影响客户太久的，因为加锁后，整个刷数的过程中，系统是处理不了这个用户的交易请求的，也就是说影响交易了。

图片

所以也一般刷数任务，我们会选择在夜深人静的时候执行，这时候用户发生交易的概率很低，影响相对较小。

4. 刷数失败怎么办？是否支持重试？

我们在刷数的时候，有可能会刷失败。比如因为网络问题、或者目标表结构等等。失败后，我们有哪些措施保证呢：

图片

如果刷数失败的话，我们要确保数据的完整性和一致性，一般一个刷数维度，需要加事务，确保失败可以回滚，保证数据一致性。刷失败之后，首先确认分布式锁要被移除（如果有加锁的话），因为要确认即使失败后，交易也是能正常进行的。

还要考虑失败支持重试。可以自动重试或者手动重试，比如通过xxl-job定时任务捞取，继续重试。有时候，可以设置重试次数和重试间隔，确保任务在一段时间内尝试恢复。

5. 恰到好处的事务处理

我们第4小节提到，如果失败了，需要保证数据的完整性和一致性。其实，一般我们刷数，就是通过加事务处理去保证的。

事务需要加到恰到好处，比如我们不能所有的刷数业务都放到一个事务内。如果我们是按照客户维度来刷数的，我们就一个事务把一个客户所有的数据刷的逻辑放到一块，当然，有些查询是可以放到事务外处理的，一些更新或者修改、删除操作则放到事务内。

图片

如果你的数据是分库处理的，则有可能刷数的时候要考虑分布式事务了。

6. 性能优化，考虑多线并行执行。

如果我们的刷数任务数据量很大，执行耗时比较久的话。就建议可以多线程并行执行。

比如你是分库分表的，是有30个表，你可以A线程执行1-10的表，B线程执行11-20的表，C线程执行21-30的表。

图片

7. 日志记录

我们执行一个刷数任务，一定要做好日志记录。

我记得我们技术领导说过一句话，很有道理：评价你的日志是否打印得是否够好。就是你根据控制台打印出的日志，能知道你的复杂业务执行到什么流程。如果异常中断，你能根据日志快速知道什么异常，哪个业务数据有问题，那就够了。

刷数日志打印，一般包括：

记录详细的刷数任务日志
包括执行的步骤
刷数成功与否
刷数耗时等信息

8.监控告警

我们开发刷数逻辑的时候，如果某种返回不符合预期的时候，就需要告警上报监控(比如插入数据库返回跟预期插入条数不一致)。

又或者是你刷数失败，需要包这个异常日志打印出来，并且上报监控（比如普罗米修斯，和企业微信通知）。比如这块代码:

try{
    flushService.flushDataCustomerLevel(customerNo);
}catch(Exception e){
  Logger.error("flush customer data fail: {}", customerNo, e);
  prometheusMonitor.report("刷数失败",customerNo);
  notify();
  weChatWorkSend();
}

9. 数据量大的时候，最好压测

如果你刷的数据量很大的时候，最好做压测。压测通常包括模拟多种负载情况，以确保系统在不同条件下都能正常运行。

做刷数任务压测，主要考虑这几方面：

数据量：使用大量数据进行测试，以确保系统在处理大规模数据时的性能。这可以包括数据量的增长、查询和写入的吞吐量等。
网络延迟和吞吐量：在模拟网络延迟和限制吞吐量的情况下进行测试，以了解系统在这些条件下的表现。
错误处理：引入模拟的错误场景，例如数据库连接中断、请求超时等，以验证系统对错误的处理能力。

刷数压测的好处：

图片

性能评估：压测可以帮助评估系统在处理大量数据时的性能。通过模拟真实负载，可以更好地了解系统的响应时间、吞吐量和资源利用情况。
容量规划：通过压测，可以更好地了解系统在不同负载条件下的容量需求。这有助于进行容量规划，确保系统能够应对未来的增长。
发现潜在问题：压测可以帮助发现系统中可能存在的潜在问题，如内存泄漏、并发问题、资源瓶颈等。通过在模拟环境中发现并解决这些问题，可以避免它们在生产环境中引起严重后果。
验证容错能力：压测可以测试系统在出现错误、超时、网络故障等异常条件下的容错能力。这有助于确保系统能够适应不可预测的情况。
性能优化：压测结果提供了性能瓶颈的线索，帮助团队进行性能优化。通过分析性能数据，可以识别需要改进的部分并优化系统。
规遇风险：通过压测，可以更早地发现潜在的性能问题和瓶颈，有助于规遇系统上线后可能面临的风险。

10. 实战压轴汇总：做一个刷数任务，如何更好保护你的系统

10.1 设置个配置时间，可以控制任务跑多长时间后终止。

有些时候，我们如果担心刷数任务跑太久，可能会影响交易，这时候我们可以搞个配置变量，比如apollo配置变量，控制刷数多长时间后，可以停止。

10.2 循环分页查询，设置最大次数告警监控

我们做刷数任务的时候，经常是分页循环扫描某个客户/用户表，然后一批一批出来执行刷数逻辑。比如伪代码像这样:

long minId
 while(true){
   List customerList =  customer.pageQueryAscID(pageSize,minId);
   flushCustomerData(customerList);
   if(customerList.size()< pageSize){
     break;
   }
   minId = customerList.get(customerList.size()-1).getId();
 }

这块代码，其实没啥问题。有些时候，我们可能手抖写错了，可能导致死循环。

其实为了保护我们的系统，我们可以先确认下客户有多少，然后设置个循环次数，当超过最大循环次数之后，就告警排查确认。

long minId;
 Integer maxCycleNum =1000;
 Integer cycleNum = 0;
 while(true ){
   List customerList =  customer.pageQueryAscID(pageSize,minId);
   flushCustomerData(customerList);
   if(customerList.size()= maxCycleNum){
    //告警
   }
   cycleNum ++;
 }

当然这只是个一种后端思路哈。

10.3 如果定时任务是xxl-job ，路由规则是什么，并发问题考虑

大家如果使用过xxl-job作为定时任务，应该抖配置过它的路由规则吧。比如是分片的，还是第一个/最后一个等等。

如果是分片的，就是多个pod都可能执行到你的业务逻辑。这时候你要考虑并发执行，你的业务是否收影响。

10.4 SQL是否命中索引，是否存在慢SQL

我们做刷数任务的时候，很多时候，都要跟SQL打交道。

我们要确保查询、更新、或者删除的数据量大的表，都要有索引了。要确保没有慢SQL。

常规的我们可以用explain分析SQL，我们还可以通过压测分析出来。

10.5 如果加了分布式锁，锁时间考虑

如果你是按照客户维度刷数，加了客户维度的分布式锁，你要考虑锁时间是多久，锁时间是否可以配置（一般这种最好配置一下。）

如果你时间设置小，那这时候刷数还没完成，锁就超时释放了，那不就有问题啦。

如果你时间设置过长也不太好，当然，你在刷完数，finally执行释放锁也可以。

finally {
    redisService.deleteKey(customerNoKey);
  }

10.6 大事务考虑，事务是否太多？是否可以拆分为小事务

我们在刷数的时候，为了保证数据的完整性和一致性，一般要求加事务的。

但是，切忌事务不要太大，我们可以把一些查询放到事务外，把计算逻辑也放事务外，把数据库的更新、新增、删除操作放到事务内就好。

就是把大事务拆分为小事务。

10.7 打印耗时时间，如果时间够长

一般来说，做刷数，尽量打印一下耗时，这样我们可以根据日志，观察是否有哪些问题需要及时处理的。

比如打印刷一个客户要多久。或者打印一批客户要多久，等等。

10.8 是否可以加个配置，减少扫描

有些时候，我们需要配置一定的灰度规则来支持灰度刷数。如果刷数流程是先扫描所有客户，然后接着判断客户是否命中灰度。这样每次任务执行，都会扫描客户表。

我么可以考虑加个配置，传特定的客户号，根据客户号列表，去查客户列表，然后开始刷数逻辑，不用再全表扫描客户表了。

10.9 是否考虑校验逻辑

有些时候，我们没法确认我们刷的逻辑是否正确，这时候，可以考虑是否加校验逻辑。

你可以异步进行校验，也可以同步校验（当然，如果耗时不大的时候）

10.10 try...catch 包住可能的异常

如果我们是按照一个客户维度去刷数的，你要确认A客户刷失败，是不是不能影响B客户。这时候建议try...catch 包住可能的异常，这样即有利于分析错误原因，又可以不不因为未知异常导致刷数中断。