sms-castle-walls/.trae/documents/垃圾短信分类项目实现计划.md

# 垃圾短信分类项目实现计划

## 1. 项目结构搭建
- 创建项目目录结构，包括 `src`、`data`、`models` 等目录
- 初始化项目依赖，使用 uv 进行管理
- 创建配置文件和环境变量管理

## 2. 数据处理
- 使用 Polars 加载和清洗 spam.csv 数据集
- 将英文短信翻译成中文，使用 DeepSeek API
- 使用 Pandera 定义数据 Schema 进行验证
- 数据预处理和特征工程

## 3. 机器学习模型
- 实现至少两个模型：Logistic Regression 作为基线，LightGBM 作为强模型
- 模型训练、验证和评估
- 模型保存与加载
- 达到 F1 ≥ 0.70 或 ROC-AUC ≥ 0.75 的性能指标

## 4. LLM 集成
- 使用 DeepSeek API 进行短信内容解释和归因
- 生成结构化的行动建议
- 确保输出可追溯、可复现

## 5. Agent 框架
- 使用 pydantic-ai 构建结构化输出的 Agent
- 实现至少两个工具：ML 预测工具和评估工具
- 构建完整的工具调用流程

## 6. 项目测试和部署
- 编写单元测试和集成测试
- 确保项目可在教师机上运行
- 准备项目展示材料

## 技术栈
- Python 3.12
- uv 进行项目管理
- Polars + Pandas 进行数据处理
- Pandera 进行数据验证
- Scikit-learn + LightGBM 进行机器学习
- pydantic-ai 作为 Agent 框架
- DeepSeek API 作为 LLM 提供方

## 预期成果
- 一个完整的垃圾短信分类系统
- 中文翻译后的数据集
- 可复现的机器学习模型
- 基于 LLM 的智能建议生成
- 结构化、可追溯的输出
-												feat: 初始化垃圾短信分类项目基础结构

添加项目核心文件结构，包括：
- 配置文件和环境变量管理
- 数据处理和翻译模块
- 机器学习模型训练和评估
- 基于LLM的智能分析Agent
- 测试脚本和项目文档

											
										
										
											2026-01-14 00:18:34 +08:00
+								# 垃圾短信分类项目实现计划
 								## 1. 项目结构搭建
 								- 创建项目目录结构，包括 `src`、`data`、`models` 等目录
 								- 初始化项目依赖，使用 uv 进行管理
 								- 创建配置文件和环境变量管理
 								## 2. 数据处理
 								- 使用 Polars 加载和清洗 spam.csv 数据集
 								- 将英文短信翻译成中文，使用 DeepSeek API
 								- 使用 Pandera 定义数据 Schema 进行验证
 								- 数据预处理和特征工程
 								## 3. 机器学习模型
 								- 实现至少两个模型：Logistic Regression 作为基线，LightGBM 作为强模型
 								- 模型训练、验证和评估
 								- 模型保存与加载
 								- 达到 F1 ≥ 0.70 或 ROC-AUC ≥ 0.75 的性能指标
 								## 4. LLM 集成
 								- 使用 DeepSeek API 进行短信内容解释和归因
 								- 生成结构化的行动建议
 								- 确保输出可追溯、可复现
 								## 5. Agent 框架
 								- 使用 pydantic-ai 构建结构化输出的 Agent
 								- 实现至少两个工具：ML 预测工具和评估工具
 								- 构建完整的工具调用流程
 								## 6. 项目测试和部署
 								- 编写单元测试和集成测试
 								- 确保项目可在教师机上运行
 								- 准备项目展示材料
 								## 技术栈
 								- Python 3.12
 								- uv 进行项目管理
 								- Polars + Pandas 进行数据处理
 								- Pandera 进行数据验证
 								- Scikit-learn + LightGBM 进行机器学习
 								- pydantic-ai 作为 Agent 框架
 								- DeepSeek API 作为 LLM 提供方
 								## 预期成果
 								- 一个完整的垃圾短信分类系统
 								- 中文翻译后的数据集
 								- 可复现的机器学习模型
 								- 基于 LLM 的智能建议生成
 								- 结构化、可追溯的输出