AI 模型开发进度记录

AI 模型开发进度记录

整理时间:2026-04-20
说明:当前文件基于现有笔记和方案文档整理,不额外虚构未发生的开发进展。

1. 项目目标

目标是在本地完成一个可部署、可演示、可维护的科研知识增强生成式 AI 系统,核心能力包括:

  • 文档上传与管理
  • 异步解析、切块、索引构建
  • 基于 RAG 的问答
  • 引用返回
  • 多轮会话与上下文管理
  • 流式输出

当前确定的主技术路线:

  • C++ 网关:Drogon
  • Python 服务:FastAPI
  • 异步任务:Celery
  • 数据存储:MySQL
  • 缓存与状态层:Redis
  • 检索能力:Embedding + Chunk + FAISS / rerank

参考总方案:

2. 当前阶段判断

截至 2026-04-20,从当前目录可见材料判断,项目目前主要处于:

方案设计完成 + 技术储备基本成型 + 进入工程落地前/落地初期

也就是说,方向和技术路线已经比较清楚,但还缺少连续的实现记录、联调结果和里程碑沉淀。这次整理的重点,就是把已有材料收拢成一份后面能持续更新的主记录。

3. 已完成进展

3.1 方案与路线已经明确

已完成的高价值产出:

  • 已产出整体方案文档,明确系统目标、架构分层、8 周开发路线和 MVP 范围
  • 已确定采用 C++ Gateway + Python RAG Service 的双服务方案
  • 已明确 MySQL、Redis、Celery、Embedding、流式输出等关键模块的位置和职责

对应文档:

3.2 后端基础框架学习已完成一轮

你已经完成一轮和主线高度相关的基础框架学习,且内容覆盖比较完整:

模块 状态 说明 对应笔记
Drogon 已完成基础学习 对 C++ Web 网关、路由、控制器、文件上传、与内部服务协作有了基础认知 Drogon.md
FastAPI 已完成基础学习 已覆盖 API、参数、请求体、异步、上传、任务入口等内容 FasthAPI.md
Celery 已完成基础学习 已掌握任务队列、Worker、状态、重试、任务查询、与 FastAPI 配合 Celery.md
Redis 已完成基础学习 已覆盖缓存、任务状态、中间结果、计数、TTL 等常见使用场景 Redis.md
MySQL 已完成基础学习 已覆盖连接、建表、字段设计、任务记录和业务数据存储思路 MySQL.md
Ray 已完成基础学习 已对分布式计算/GPU 调度有初步储备,适合作为后续扩展项 Ray.md
Embedding 已完成基础学习 已理解向量表示在语义检索/RAG 中的作用 embedding.md

3.3 检索与模型相关知识已开始进入专项阶段

2026-04-19 这组笔记说明你的学习已经从“通用后端栈”切到“RAG/检索/训练专项”:

专题 状态 当前意义 对应笔记
Chunk 已完成入门与策略理解 为文档切分和召回效果打基础 Chunk学习笔记.md
句子嵌入模型 已完成系统性梳理 已开始从业务目标、数据、训练、部署全链路理解 embedding 句子嵌入模型.md
数据处理与评估 已完成一轮整理 已开始关注数据清洗、评估集、badcase 和指标 数据处理与数据集评估.md
LoRA 微调训练 已完成基础梳理 说明你已经开始考虑后续模型训练/调优路线 LoRA微调训练.md

3.4 当前真正“落地完成”的部分

基于现有文件,可以确认已经完成的是:

  • 项目目标与交付路线的规划
  • 主技术栈的选型和学习
  • 检索/RAG 关键知识点的初步铺垫
  • 一份适合继续追踪的主进度文档框架

目前还不能从现有目录中确认已经完成的内容:

  • 实际工程仓库初始化
  • Docker / docker-compose 启动记录
  • Drogon / FastAPI / Celery 服务跑通记录
  • 数据库表结构落地
  • 上传、切块、索引、问答联调结果
  • 测试、验收、bug 排查日志

4. 时间线整理

按现有文件时间整理出的开发脉络如下:

日期 进展 说明
2026-03-16 完成总体方案研究 产出 deep-research-report.md,明确 8 周路线和总体架构
2026-03-24 完成 FastAPI / Celery / Redis 第一轮学习 开始打通 Python 服务、异步任务、状态层相关知识
2026-03-28 完成 Drogon / MySQL 第一轮学习 开始补齐 C++ 网关与关系型数据层
2026-03-29 完成 Embedding 学习 检索和向量表示方向开始成型
2026-03-30 完成 Ray 学习 对后续并行计算 / GPU 调度有预研储备
2026-04-19 完成 Chunk / 句子嵌入 / 数据评估 / LoRA 专题整理 学习重点从框架切到检索与模型侧
2026-04-20 建立正式进度记录 将已有资料整理成统一的开发记录入口

5. 阶段拆分与当前状态

阶段一:方向确认与技术选型

状态:已完成

已完成内容:

  • 明确项目目标和 MVP 范围
  • 明确双服务架构
  • 明确数据层、任务层、检索层、流式层的职责分工

阶段二:基础知识补齐

状态:已完成第一轮

已完成内容:

  • Web 服务框架学习
  • 存储与缓存学习
  • 异步任务机制学习
  • 向量检索和训练相关基础学习

当前缺口:

  • 还需要把“概念理解”转成“最小可运行系统”
  • 还缺少工程级联调记录和可验证产物

阶段三:最小系统落地

状态:待开始或未记录

建议按下面顺序推进:

  1. 建立工程目录与 docker-compose
  2. 跑通 MySQL、Redis
  3. 跑通 Drogon health 接口
  4. 跑通 FastAPI health 接口
  5. 跑通 Celery demo task 和任务状态查询
  6. 打通“上传文件 -> 创建任务 -> 查询状态”的最小闭环

阶段四:RAG 核心链路

状态:待开始或未记录

核心目标:

  1. 文档解析与切块
  2. Embedding 生成
  3. 向量索引构建
  4. 检索与重排
  5. 问答生成
  6. 引用返回

阶段五:工程化与体验优化

状态:待开始或未记录

后续重点:

  1. 流式输出
  2. 会话记忆
  3. 配置管理
  4. 限流与鉴权
  5. 测试与部署

6. 当前最值得推进的任务

如果你接下来要进入真正开发,我建议优先记录和推进下面这些 P0 事项:

优先级 任务 目标产出
P0 初始化工程骨架 有明确目录结构、启动脚本、配置文件
P0 跑通 MySQL / Redis 基础依赖可稳定启动
P0 建立 Drogon 最小服务 提供 /health,可启动可访问
P0 建立 FastAPI + Celery 最小服务 能提交 demo task 并查询状态
P0 设计数据表 至少有 documentstaskssessionsmessages
P0 打通上传闭环 上传后生成 doc_idtask_id
P0 补充实际开发日志 每次开发记录输入、输出、问题、下一步

7. 当前记录存在的问题

目前你的资料质量其实不低,但“开发记录”层面有几个明显问题:

  • 学习笔记很多,但实际开发日志没有集中沉淀
  • 方案很完整,但还没有对应的阶段性验收记录
  • 缺少“今天做了什么、结果如何、卡在哪里、下一步做什么”的连续记录
  • 缺少最小闭环的里程碑标记,后续很容易出现学习很多但难以判断工程进展的情况

8. 后续建议的记录方式

后续建议把这份文件当成总入口,只保留高价值信息:

  • 当前阶段
  • 最近里程碑
  • 已完成事项
  • 当前阻塞点
  • 下一步

具体每天或每次开发的细节,可以按下面模板追加。

9. 开发日志模板

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
## YYYY-MM-DD

### 今日目标
-

### 已完成
-

### 产出
- 文档:
- 代码:
- 接口:
- 数据表:

### 遇到的问题
-

### 解决方式
-

### 当前结论
-

### 下一步
-

10. 一句话总结当前进度

截至 2026-04-20,你的 AI 模型开发项目已经完成了方案设计和核心技术储备,正在从“学明白”转向“做出来”的临界点;下一阶段的关键不是继续扩大学习范围,而是尽快产出第一个可运行的最小闭环,并持续补充真实开发记录。