49 lines
1.5 KiB
Markdown
49 lines
1.5 KiB
Markdown
|
|
# 垃圾短信分类项目实现计划
|
|||
|
|
|
|||
|
|
## 1. 项目结构搭建
|
|||
|
|
- 创建项目目录结构,包括 `src`、`data`、`models` 等目录
|
|||
|
|
- 初始化项目依赖,使用 uv 进行管理
|
|||
|
|
- 创建配置文件和环境变量管理
|
|||
|
|
|
|||
|
|
## 2. 数据处理
|
|||
|
|
- 使用 Polars 加载和清洗 spam.csv 数据集
|
|||
|
|
- 将英文短信翻译成中文,使用 DeepSeek API
|
|||
|
|
- 使用 Pandera 定义数据 Schema 进行验证
|
|||
|
|
- 数据预处理和特征工程
|
|||
|
|
|
|||
|
|
## 3. 机器学习模型
|
|||
|
|
- 实现至少两个模型:Logistic Regression 作为基线,LightGBM 作为强模型
|
|||
|
|
- 模型训练、验证和评估
|
|||
|
|
- 模型保存与加载
|
|||
|
|
- 达到 F1 ≥ 0.70 或 ROC-AUC ≥ 0.75 的性能指标
|
|||
|
|
|
|||
|
|
## 4. LLM 集成
|
|||
|
|
- 使用 DeepSeek API 进行短信内容解释和归因
|
|||
|
|
- 生成结构化的行动建议
|
|||
|
|
- 确保输出可追溯、可复现
|
|||
|
|
|
|||
|
|
## 5. Agent 框架
|
|||
|
|
- 使用 pydantic-ai 构建结构化输出的 Agent
|
|||
|
|
- 实现至少两个工具:ML 预测工具和评估工具
|
|||
|
|
- 构建完整的工具调用流程
|
|||
|
|
|
|||
|
|
## 6. 项目测试和部署
|
|||
|
|
- 编写单元测试和集成测试
|
|||
|
|
- 确保项目可在教师机上运行
|
|||
|
|
- 准备项目展示材料
|
|||
|
|
|
|||
|
|
## 技术栈
|
|||
|
|
- Python 3.12
|
|||
|
|
- uv 进行项目管理
|
|||
|
|
- Polars + Pandas 进行数据处理
|
|||
|
|
- Pandera 进行数据验证
|
|||
|
|
- Scikit-learn + LightGBM 进行机器学习
|
|||
|
|
- pydantic-ai 作为 Agent 框架
|
|||
|
|
- DeepSeek API 作为 LLM 提供方
|
|||
|
|
|
|||
|
|
## 预期成果
|
|||
|
|
- 一个完整的垃圾短信分类系统
|
|||
|
|
- 中文翻译后的数据集
|
|||
|
|
- 可复现的机器学习模型
|
|||
|
|
- 基于 LLM 的智能建议生成
|
|||
|
|
- 结构化、可追溯的输出
|