如何设计高可用的分布式定时任务系统

定时任务是后端开发中的常见需求，如何设计高可用的分布式任务系统？

单机定时任务的问题#

1
// ❌ 单机定时任务
2
setInterval(async () => {
3
  await processOrders();
4
}, 60000);
5

6
// 问题：
7
// 1. 单点故障 - 机器宕机任务停止
8
// 2. 重复执行 - 集群部署会执行多次
9
// 3. 无法动态管理

解决方案#

1. 任务分片#

1
-- 按 ID 取模分片
2
SELECT * FROM orders
3
WHERE id % 10 = SHARD_ID
4
AND status = 'pending';

2. 分布式锁#

1
// 使用 Redis 实现分布式锁
2
async function acquireLock(key, ttl = 30) {
3
  const result = await redis.setnx(`lock:${key}`, Date.now());
4
  return result === 1;
5
}
6

7
async function releaseLock(key) {
8
  await redis.del(`lock:${key}`);
9
}

3. 延迟队列#

1
interface DelayJob {
2
  id: string;
3
  topic: string;
4
  payload: any;
5
  delayTime: number;
6
  attempt: number;
7
}
8

9
// 使用 Redis ZSet 实现延迟队列
10
class DelayQueue {
11
  async push(job: DelayJob) {
12
    const score = Date.now() + job.delayTime;
13
    await redis.zadd('delay:queue', score, JSON.stringify(job));
14
  }
15

16
  async pop(timeout = 5): Promise<DelayJob | null> {
17
    const result = await redis.bzpopmin('delay:queue', timeout);
18
    return result ? JSON.parse(result[1]) : null;
19
  }
20
}

TIP
推荐使用开源方案：XXL-JOB、ElasticJob、ScheduleJS

整体架构#

1
┌─────────────────────────────────────────┐
2
│                 API                     │
3
└─────────────────┬───────────────────────┘
4
                  │
5
┌─────────────────▼───────────────────────┐
6
│              任务调度中心                 │
7
│  (分配任务、检查心跳、故障转移)            │
8
└─────────────────┬───────────────────────┘
9
                  │
10
┌─────────────────▼───────────────────────┐
11
│          执行器集群 (Worker)              │
12
│  ┌─────────┐ ┌─────────┐ ┌─────────┐   │
13
│  │Worker 1 │ │Worker 2 │ │Worker 3 │   │
14
│  └─────────┘ └─────────┘ └─────────┘   │
15
└─────────────────┬───────────────────────┘
16
                  │
17
┌─────────────────▼───────────────────────┐
18
│          Redis / MySQL                   │
19
└─────────────────────────────────────────┘

核心特性#

特性	说明
高可用	多 Worker 集群，故障自动转移
幂等性	任务执行结果可追溯，支持重试
动态管理	支持任务启停、修改参数
监控告警	执行时间、成功率、异常报警
日志追踪	任务执行日志完整记录

关键代码#

1
@JobExecutor("orderProcessJob")
2
public void execute(JobArgs args) {
3
    log.info("开始处理订单: {}", args.getJobId());
4

5
    // 1. 检查任务是否已执行
6
    if (!jobService.checkAndLock(args.getJobId())) {
7
        log.warn("任务已被其他节点执行");
8
        return;
9
    }
10

11
    // 2. 执行业务逻辑
12
    orderService.process(args.getOrderId());
13

14
    // 3. 更新任务状态
15
    jobService.complete(args.getJobId());
16
}

总结#

设计分布式任务系统需要考虑：

可靠性 - 任务不丢失、不重复
可用性 - 故障自动转移
可观测性 - 完整日志和监控
性能 - 支持大量任务并发执行