AI 模型开发进度记录

发表于 2026-04-20 分类于学习， AI模型开发阅读次数：

AI 模型开发进度记录

整理时间：2026-04-20
说明：当前文件基于现有笔记和方案文档整理，不额外虚构未发生的开发进展。

1. 项目目标

目标是在本地完成一个可部署、可演示、可维护的科研知识增强生成式 AI 系统，核心能力包括：

文档上传与管理
异步解析、切块、索引构建
基于 RAG 的问答
引用返回
多轮会话与上下文管理
流式输出

当前确定的主技术路线：

C++ 网关：Drogon
Python 服务：FastAPI
异步任务：Celery
数据存储：MySQL
缓存与状态层：Redis
检索能力：Embedding + Chunk + FAISS / rerank

参考总方案：

deep-research-report.md

2. 当前阶段判断

截至 2026-04-20，从当前目录可见材料判断，项目目前主要处于：

方案设计完成 + 技术储备基本成型 + 进入工程落地前/落地初期

也就是说，方向和技术路线已经比较清楚，但还缺少连续的实现记录、联调结果和里程碑沉淀。这次整理的重点，就是把已有材料收拢成一份后面能持续更新的主记录。

3. 已完成进展

3.1 方案与路线已经明确

已完成的高价值产出：

已产出整体方案文档，明确系统目标、架构分层、8 周开发路线和 MVP 范围
已确定采用 C++ Gateway + Python RAG Service 的双服务方案
已明确 MySQL、Redis、Celery、Embedding、流式输出等关键模块的位置和职责

对应文档：

deep-research-report.md

3.2 后端基础框架学习已完成一轮

你已经完成一轮和主线高度相关的基础框架学习，且内容覆盖比较完整：

模块	状态	说明	对应笔记
Drogon	已完成基础学习	对 C++ Web 网关、路由、控制器、文件上传、与内部服务协作有了基础认知	Drogon.md
FastAPI	已完成基础学习	已覆盖 API、参数、请求体、异步、上传、任务入口等内容	FasthAPI.md
Celery	已完成基础学习	已掌握任务队列、Worker、状态、重试、任务查询、与 FastAPI 配合	Celery.md
Redis	已完成基础学习	已覆盖缓存、任务状态、中间结果、计数、TTL 等常见使用场景	Redis.md
MySQL	已完成基础学习	已覆盖连接、建表、字段设计、任务记录和业务数据存储思路	MySQL.md
Ray	已完成基础学习	已对分布式计算/GPU 调度有初步储备，适合作为后续扩展项	Ray.md
Embedding	已完成基础学习	已理解向量表示在语义检索/RAG 中的作用	embedding.md

3.3 检索与模型相关知识已开始进入专项阶段

2026-04-19 这组笔记说明你的学习已经从“通用后端栈”切到“RAG/检索/训练专项”：

专题	状态	当前意义	对应笔记
Chunk	已完成入门与策略理解	为文档切分和召回效果打基础	Chunk学习笔记.md
句子嵌入模型	已完成系统性梳理	已开始从业务目标、数据、训练、部署全链路理解 embedding	句子嵌入模型.md
数据处理与评估	已完成一轮整理	已开始关注数据清洗、评估集、badcase 和指标	数据处理与数据集评估.md
LoRA 微调训练	已完成基础梳理	说明你已经开始考虑后续模型训练/调优路线	LoRA微调训练.md

3.4 当前真正“落地完成”的部分

基于现有文件，可以确认已经完成的是：

项目目标与交付路线的规划
主技术栈的选型和学习
检索/RAG 关键知识点的初步铺垫
一份适合继续追踪的主进度文档框架

目前还不能从现有目录中确认已经完成的内容：

实际工程仓库初始化
Docker / docker-compose 启动记录
Drogon / FastAPI / Celery 服务跑通记录
数据库表结构落地
上传、切块、索引、问答联调结果
测试、验收、bug 排查日志

4. 时间线整理

按现有文件时间整理出的开发脉络如下：

日期	进展	说明
2026-03-16	完成总体方案研究	产出 deep-research-report.md，明确 8 周路线和总体架构
2026-03-24	完成 FastAPI / Celery / Redis 第一轮学习	开始打通 Python 服务、异步任务、状态层相关知识
2026-03-28	完成 Drogon / MySQL 第一轮学习	开始补齐 C++ 网关与关系型数据层
2026-03-29	完成 Embedding 学习	检索和向量表示方向开始成型
2026-03-30	完成 Ray 学习	对后续并行计算 / GPU 调度有预研储备
2026-04-19	完成 Chunk / 句子嵌入 / 数据评估 / LoRA 专题整理	学习重点从框架切到检索与模型侧
2026-04-20	建立正式进度记录	将已有资料整理成统一的开发记录入口

5. 阶段拆分与当前状态

阶段一：方向确认与技术选型

状态：已完成

已完成内容：

明确项目目标和 MVP 范围
明确双服务架构
明确数据层、任务层、检索层、流式层的职责分工

阶段二：基础知识补齐

状态：已完成第一轮

已完成内容：

Web 服务框架学习
存储与缓存学习
异步任务机制学习
向量检索和训练相关基础学习

当前缺口：

还需要把“概念理解”转成“最小可运行系统”
还缺少工程级联调记录和可验证产物

阶段三：最小系统落地

状态：待开始或未记录

建议按下面顺序推进：

建立工程目录与 docker-compose
跑通 MySQL、Redis
跑通 Drogon health 接口
跑通 FastAPI health 接口
跑通 Celery demo task 和任务状态查询
打通“上传文件 -> 创建任务 -> 查询状态”的最小闭环

阶段四：RAG 核心链路

状态：待开始或未记录

核心目标：

文档解析与切块
Embedding 生成
向量索引构建
检索与重排
问答生成
引用返回

阶段五：工程化与体验优化

状态：待开始或未记录

后续重点：

流式输出
会话记忆
配置管理
限流与鉴权
测试与部署

6. 当前最值得推进的任务

如果你接下来要进入真正开发，我建议优先记录和推进下面这些 P0 事项：

优先级	任务	目标产出
P0	初始化工程骨架	有明确目录结构、启动脚本、配置文件
P0	跑通 MySQL / Redis	基础依赖可稳定启动
P0	建立 Drogon 最小服务	提供 `/health`，可启动可访问
P0	建立 FastAPI + Celery 最小服务	能提交 demo task 并查询状态
P0	设计数据表	至少有 `documents`、`tasks`、`sessions`、`messages`
P0	打通上传闭环	上传后生成 `doc_id` 和 `task_id`
P0	补充实际开发日志	每次开发记录输入、输出、问题、下一步

7. 当前记录存在的问题

目前你的资料质量其实不低，但“开发记录”层面有几个明显问题：

学习笔记很多，但实际开发日志没有集中沉淀
方案很完整，但还没有对应的阶段性验收记录
缺少“今天做了什么、结果如何、卡在哪里、下一步做什么”的连续记录
缺少最小闭环的里程碑标记，后续很容易出现学习很多但难以判断工程进展的情况

8. 后续建议的记录方式

后续建议把这份文件当成总入口，只保留高价值信息：

当前阶段
最近里程碑
已完成事项
当前阻塞点
下一步

具体每天或每次开发的细节，可以按下面模板追加。

9. 开发日志模板

## YYYY-MM-DD

### 今日目标
-

### 已完成
-

### 产出
- 文档：
- 代码：
- 接口：
- 数据表：

### 遇到的问题
-

### 解决方式
-

### 当前结论
-

### 下一步
-

10. 一句话总结当前进度

截至 2026-04-20，你的 AI 模型开发项目已经完成了方案设计和核心技术储备，正在从“学明白”转向“做出来”的临界点；下一阶段的关键不是继续扩大学习范围，而是尽快产出第一个可运行的最小闭环，并持续补充真实开发记录。