git remote add origin http://hblu.top:3000/MachineLearning2025/G03-304.git

git push -u origin main
2026-01-14 14:16:59 +08:00 · 2026-01-14 14:16:59 +08:00 · 4f5d7d977b
commit 4f5d7d977b
22 changed files with 12665 additions and 0 deletions
--- a/ml_course_design/.env.example
+++ b/ml_course_design/.env.example
@ -0,0 +1 @@
+DEEPSEEK_API_KEY=your-key-here
--- a/ml_course_design/.gitignore
+++ b/ml_course_design/.gitignore
@ -0,0 +1,26 @@
+# ===== Configuration files that should not be committed =====
+.env
+
+# ===== Python virtual environments =====
+.venv/
+venv/
+__pycache__/
+*.pyc
+*.pyo
+.pytest_cache/
+
+# ===== IDE settings =====
+.vscode/
+.idea/
+*.swp
+
+# ===== macOS system files =====
+.DS_Store
+
+# ===== Jupyter =====
+.ipynb_checkpoints/
+
+# ===== Large files (over 10MB should be excluded) =====
+# Uncomment and add specific large files if needed
+# data/large_dataset.csv
+# models/large_model.pkl
--- a/ml_course_design/README.md
+++ b/ml_course_design/README.md
@ -0,0 +1,373 @@
+# 客户流失预测系统
+
+> **机器学习 (Python) 课程设计**
+
+## 👥 团队成员
+
+| 姓名 | 学号 | 贡献 |
+|------|------|------|
+| 黄迎 | 2311020109 | 数据处理、模型训练 |
+| 龚士皓 | 2311020107 | Agent 开发、Streamlit |
+| 金文磊 | 2311020110 | 测试、文档撰写 |
+
+## 📋 项目概述
+
+本项目是一个基于机器学习的电信客户流失预测系统，结合了智能Agent技术，能够通过自然语言交互和可视化界面提供客户流失风险预测服务。
+
+### 项目目标
+
+- 构建一个结构化数据集的分类/回归模型
+- 实现一个能够理解自然语言的智能Agent
+- 提供用户友好的可视化交互界面
+
+### 技术栈
+
+- **数据处理**: Polars + pandas
+- **可视化**: Seaborn + Streamlit + Plotly
+- **数据验证**: Pydantic + pandera
+- **机器学习**: scikit-learn + LightGBM
+- **智能Agent**: pydantic-ai
+- **LLM服务**: DeepSeek
+
+## 🚀 快速开始
+
+### 1. 环境配置
+
+#### 安装依赖
+
+```bash
+# 使用uv安装项目依赖
+uv sync
+```
+
+#### 配置API Key
+
+```bash
+# 复制环境变量示例文件
+cp .env.example .env
+
+# 编辑.env文件，配置DeepSeek API Key
+# DEEPSEEK_API_KEY="your-key-here"
+```
+
+### 2. 运行应用
+
+#### 方式A: 运行Streamlit演示应用
+
+```bash
+uv run streamlit run src/streamlit_app.py
+```
+
+#### 方式B: 运行智能Agent演示
+
+```bash
+uv run python src/agent_app.py
+```
+
+#### 方式C: 运行模型训练脚本
+
+```bash
+uv run python src/train.py
+```
+
+### 3. 从任意目录运行（可选）
+
+如果你想从项目根目录外运行应用，可以使用完整路径：
+
+```bash
+# 运行智能Agent演示
+uv run python "path/to/ml_course_design/src/agent_app.py"
+
+# 运行模型训练脚本
+uv run python "path/to/ml_course_design/src/train.py"
+
+# 运行Streamlit演示应用
+uv run -C "path/to/ml_course_design" streamlit run src/streamlit_app.py
+```
+
+## 📊 数据说明
+
+### 数据集
+
+本项目使用了Kaggle上的**Telco Customer Churn**数据集，包含了7043名电信客户的信息和流失状态。
+
+### 数据字段
+
+- **客户信息**: 性别、年龄、是否有伴侣/家属、在网时长
+- **服务信息**: 电话服务、互联网服务、在线安全、云备份等
+- **合同信息**: 合同类型、支付方式、月费用、总费用
+- **目标变量**: 是否流失(Churn)
+
+### 数据预处理
+
+- 使用Polars Lazy API进行高效数据处理
+- 处理缺失值和异常值
+- 特征编码和标准化
+
+## 🧠 机器学习实现
+
+### 模型架构
+
+- **基准模型**: Logistic Regression
+- **高级模型**: LightGBM
+
+### 评估指标
+
+| 模型 | 准确率 | 精确率 | 召回率 | F1分数 | ROC-AUC |
+|------|--------|--------|--------|--------|---------|
+| Logistic Regression | 0.8068 | 0.6600 | 0.5629 | 0.6076 | 0.8547 |
+| LightGBM | 0.9723 | 0.9358 | 0.9616 | 0.9485 | 0.9951 |
+
+### 特征重要性
+
+影响客户流失的关键特征包括：
+- 合同类型（月付客户流失风险更高）
+- 在网时长（新客户流失风险更高）
+- 月费用（高费用客户流失风险更高）
+- 支付方式（电子支票支付客户流失风险更高）
+
+## 🤖 Agent 实现
+
+### 功能概述
+
+智能Agent能够理解自然语言输入，提取客户信息，并提供流失风险预测和决策建议。
+
+### 工具列表
+
+| 工具名称 | 功能 | 输入 | 输出 |
+|---------|------|------|------|
+| `predict_churn` | 使用ML模型预测流失风险 | CustomerFeatures | float |
+| `explain_churn` | 解释影响流失的关键因素 | CustomerFeatures | list[str] |
+
+### 交互示例
+
+**输入**: 
+```
+我有一个女性客户，35岁，在网2个月，月费用89.99，使用电子支票支付，采用月付合同
+```
+
+**输出**: 
+```json
+{
+  "risk_score": 0.72,
+  "decision": "高风险客户，建议重点关注",
+  "actions": ["主动联系客户", "提供个性化优惠", "分析使用习惯"],
+  "rationale": "月付合同、在网时长短和电子支票支付是导致高流失风险的主要因素"
+}
+```
+
+## 🎨 Streamlit 应用
+
+### 功能特点
+
+- **直观的输入界面**: 分步填写客户信息
+- **实时预测结果**: 立即显示流失风险评分
+- **风险等级可视化**: 使用颜色和进度条直观展示风险
+- **影响因素分析**: 提供详细的风险因素解释
+- **数据统计展示**: 可视化展示不同特征与流失率的关系
+
+### 使用方法
+
+1. 在左侧边栏填写客户信息
+2. 点击"预测流失风险"按钮
+3. 在主界面查看预测结果和建议
+
+## 📁 项目结构
+
+```
+ml_course_design/
+├── pyproject.toml            # 项目依赖配置
+├── .env.example              # 环境变量示例
+├── .gitignore                # Git忽略规则
+├── README.md                 # 项目说明文档
+├── data/                     # 数据集目录
+│   └── WA_Fn-UseC_-Telco-Customer-Churn.csv
+├── models/                   # 模型保存目录
+│   └── best_model_lr.joblib
+├── src/                      # 源代码目录
+│   ├── __init__.py
+│   ├── data.py               # 数据处理模块
+│   ├── features.py           # 特征定义模块
+│   ├── train.py              # 模型训练模块
+│   ├── infer.py              # 推理接口模块
+│   ├── agent_app.py          # Agent应用
+│   └── streamlit_app.py      # Streamlit应用
+└── tests/                    # 测试目录
+```
+
+## 🔧 核心模块说明
+
+### 1. 数据处理模块 (data.py)
+
+```python
+# 使用Polars Lazy API高效处理数据
+lf = pl.scan_csv("data/train.csv")
+result = (
+    lf.filter(pl.col("age") > 30)
+    .group_by("category")
+    .agg(pl.col("value").mean())
+    .collect()
+)
+```
+
+### 2. 特征定义模块 (features.py)
+
+```python
+# 使用Pydantic定义特征模型
+class CustomerFeatures(BaseModel):
+    gender: gender_types
+    SeniorCitizen: int = Field(ge=0, le=1)
+    tenure: int = Field(ge=0, le=100)
+    MonthlyCharges: float = Field(ge=0, le=200)
+    # ... 其他特征
+```
+
+### 3. 模型训练模块 (train.py)
+
+```python
+# 创建预处理管道
+preprocessor = ColumnTransformer([
+    ('num', StandardScaler(), numeric_features),
+    ('cat', OneHotEncoder(), categorical_features)
+])
+
+# 训练LightGBM模型
+lgb_model = lgb.train(
+    params,
+    lgb_train,
+    num_boost_round=500
+)
+```
+
+### 4. 推理接口模块 (infer.py)
+
+```python
+# 单例预测
+result = inferencer.predict_single(customer_features)
+
+# 预测解释
+result = inferencer.explain_prediction(customer_features)
+```
+
+## 📈 模型性能
+
+### 训练集性能
+
+| 模型 | 准确率 | 精确率 | 召回率 | F1分数 | ROC-AUC |
+|------|--------|--------|--------|--------|---------|
+| Logistic Regression | 0.8068 | 0.6600 | 0.5629 | 0.6076 | 0.8547 |
+| LightGBM | 0.9723 | 0.9358 | 0.9616 | 0.9485 | 0.9951 |
+
+### 测试集性能
+
+| 模型 | 准确率 | 精确率 | 召回率 | F1分数 | ROC-AUC |
+|------|--------|--------|--------|--------|---------|
+| Logistic Regression | 0.7982 | 0.6364 | 0.5615 | 0.5966 | 0.8357 |
+
+## 🎯 项目亮点
+
+1. **高效数据处理**: 使用Polars Lazy API实现大规模数据的快速处理
+2. **严格数据验证**: 结合Pydantic和pandera确保数据质量
+3. **双模型架构**: 同时实现基准模型和高级模型，便于对比分析
+4. **智能Agent交互**: 支持自然语言查询，提供人性化服务
+5. **可视化界面**: 直观的Streamlit应用，降低使用门槛
+6. **可解释性**: 提供详细的预测解释和影响因素分析
+
+## 📝 开发日志
+
+### Day 1: 项目初始化
+- 完成项目结构搭建
+- 配置开发环境
+- 数据探索和分析
+
+### Day 2: 数据处理
+- 实现数据加载和预处理
+- 特征工程
+- 数据验证规则定义
+
+### Day 3: 模型训练
+- 实现Logistic Regression模型
+- 实现LightGBM模型
+- 模型评估和对比
+
+### Day 4: Agent和应用开发
+- 实现智能Agent
+- 开发Streamlit应用
+- 功能测试和优化
+
+### Day 5: 项目完善
+- 文档编写
+- 代码优化
+- 最终测试
+
+## 4️⃣ 开发心得
+
+### 4.1 主要困难与解决方案
+
+在项目开发过程中，遇到的主要困难及其解决方案如下：
+
+1. **模块导入问题**
+   - **困难**：当从项目根目录外运行脚本时，Python无法找到`src`模块，出现`ModuleNotFoundError`
+   - **解决方案**：在脚本中添加路径处理逻辑，自动将项目根目录添加到Python路径中，确保模块能够正确导入
+
+2. **环境兼容性问题**
+   - **困难**：用户使用的PowerShell 5不支持现代Shell语法（如`&&`命令分隔符）
+   - **解决方案**：创建了基于Python的跨平台启动脚本，确保在不同环境下都能正常运行
+
+3. **第三方库API变化**
+   - **困难**：`pydantic_ai`库的API与预期不符（如`register_tool`方法不存在，需要使用`tool`方法；`run`方法需要改为`run_sync`）
+   - **解决方案**：查阅库的帮助文档和源代码，调整代码以使用正确的API
+
+4. **模型版本兼容性**
+   - **困难**：加载模型时出现scikit-learn版本不兼容的警告
+   - **解决方案**：确保训练和推理使用相同版本的库，并在文档中注明版本要求
+
+### 4.2 对 AI 辅助编程的感受
+
+使用AI辅助编程工具（如Trae IDE）的体验非常良好，主要体现在以下方面：
+
+1. **有帮助的场景**
+   - **快速生成代码框架**：能够根据需求快速生成项目结构和基础代码
+   - **解决技术问题**：对于特定的技术问题，能够提供多种解决方案
+   - **优化代码质量**：能够识别代码中的问题并提供改进建议
+   - **学习新技术**：能够解释复杂的技术概念，帮助快速掌握新技术
+
+2. **需要注意的地方**
+   - **代码验证**：生成的代码可能存在细微错误，需要仔细验证和测试
+   - **API准确性**：对于特定库的最新API可能不够了解，需要查阅官方文档确认
+   - **业务逻辑**：复杂的业务逻辑需要结合人类的专业知识进行设计
+   - **过度依赖**：避免过度依赖AI工具，保持独立思考和问题解决能力
+
+### 4.3 局限与未来改进
+
+如果有更多时间，项目还可以从以下几个方面进行改进：
+
+1. **模型性能优化**
+   - 尝试更多的特征工程方法，如特征选择、特征交叉等
+   - 调参优化LightGBM模型，提高预测准确率
+   - 尝试其他先进的算法，如XGBoost、CatBoost或深度学习模型
+
+2. **应用功能扩展**
+   - 添加更多的可视化图表，如客户流失风险分布、特征重要性分析等
+   - 实现批量预测功能，支持导入Excel或CSV文件进行批量分析
+   - 添加模型监控和更新机制，定期重新训练模型以适应新数据
+   - 支持多语言界面，提高应用的可用性
+
+3. **系统架构改进**
+   - 分离前后端，使用FastAPI构建API，Streamlit作为前端
+   - 实现模型服务化部署，支持RESTful API调用
+   - 添加用户认证和权限管理，提高系统安全性
+   - 支持多模型版本管理，方便模型迭代和回滚
+
+4. **开发流程优化**
+   - 添加更全面的单元测试和集成测试，提高代码质量
+   - 实现CI/CD流水线，自动构建、测试和部署
+   - 添加代码质量检查工具，如flake8、mypy等
+   - 完善文档和注释，提高代码的可维护性
+
+5. **用户体验改进**
+   - 优化Streamlit界面，提高用户交互体验
+   - 添加详细的使用说明和帮助文档
+   - 提供更智能的用户输入提示和错误处理
+
+通过这些改进，可以进一步提高项目的性能、可用性和可维护性，使其成为一个更完善的电信客户流失预测系统。
--- a/ml_course_design/data/WA_Fn-UseC_-Telco-Customer-Churn.csv
+++ b/ml_course_design/data/WA_Fn-UseC_-Telco-Customer-Churn.csv
--- a/ml_course_design/models/best_model.joblib
+++ b/ml_course_design/models/best_model.joblib
--- a/ml_course_design/models/best_model_lr.joblib
+++ b/ml_course_design/models/best_model_lr.joblib
--- a/ml_course_design/models/features.joblib
+++ b/ml_course_design/models/features.joblib
--- a/ml_course_design/models/scaler.joblib
+++ b/ml_course_design/models/scaler.joblib
--- a/ml_course_design/pyproject.toml
+++ b/ml_course_design/pyproject.toml
@ -0,0 +1,24 @@
+[project]
+name = "ml_course_design"
+version = "0.1.0"
+description = "Machine Learning + Agent Course Design"
+authors = [{ name = "Student", email = "student@example.com" }]
+requires-python = ">=3.12"
+dependencies = [
+    "polars>=0.20.0",
+    "pandas>=2.2.0",
+    "seaborn>=0.13.0",
+    "pydantic>=2.5.0",
+    "pandera>=0.18.0",
+    "scikit-learn>=1.3.0",
+    "lightgbm>=4.3.0",
+    "pydantic-ai>=0.2.0",
+    "python-dotenv>=1.0.0",
+    "streamlit>=1.30.0",
+    "joblib>=1.3.0",
+    "plotly>=6.5.1",
+]
+
+[tool.uv]
+# uv 配置
+
--- a/ml_course_design/src/init.py
+++ b/ml_course_design/src/init.py
@ -0,0 +1 @@
+# 初始化src包
--- a/ml_course_design/src/agent_app.py
+++ b/ml_course_design/src/agent_app.py
@ -0,0 +1,159 @@
+import os
+import sys
+from pathlib import Path
+from dotenv import load_dotenv
+from pydantic import BaseModel, Field
+from pydantic_ai import Agent, RunContext
+from typing import List, Optional
+
+# 添加项目根目录到Python路径，解决直接运行时的导入问题
+project_root = Path(__file__).parent.parent
+sys.path.insert(0, str(project_root))
+
+from src.features import CustomerFeatures
+from src.infer import ModelInferencer
+
+# 加载环境变量
+load_dotenv()
+
+
+class DecisionResult(BaseModel):
+    """Agent决策结果模型"""
+    risk_score: float = Field(ge=0, le=1, description="流失风险分数")
+    decision: str = Field(description="决策建议")
+    actions: List[str] = Field(description="建议采取的行动")
+    rationale: str = Field(description="决策理由")
+
+
+class CustomerInfo(BaseModel):
+    """客户信息模型"""
+    age: Optional[int] = Field(description="客户年龄")
+    gender: Optional[str] = Field(description="客户性别")
+    tenure: Optional[int] = Field(description="在网时长(月)")
+    monthly_charges: Optional[float] = Field(description="月费用")
+    total_charges: Optional[float] = Field(description="总费用")
+    contract_type: Optional[str] = Field(description="合同类型")
+    internet_service: Optional[str] = Field(description="互联网服务类型")
+    payment_method: Optional[str] = Field(description="支付方式")
+    has_partner: Optional[bool] = Field(description="是否有伴侣")
+    has_dependents: Optional[bool] = Field(description="是否有家属")
+    is_senior: Optional[bool] = Field(description="是否为老年人")
+
+
+class ChurnPredictionAgent:
+    """客户流失预测Agent"""
+    
+    def __init__(self):
+        """初始化Agent"""
+        # 获取API Key
+        self.api_key = os.getenv("DEEPSEEK_API_KEY")
+        if not self.api_key:
+            raise ValueError("DEEPSEEK_API_KEY环境变量未设置，请在.env文件中配置")
+        
+        # 初始化推理器
+        self.inferencer = ModelInferencer()
+        
+        # 创建Agent
+        self.agent = self._create_agent()
+    
+    def _create_agent(self) -> Agent:
+        """创建Agent实例
+        
+        Returns:
+            Agent实例
+        """
+        agent = Agent(
+            model="deepseek:deepseek-chat",
+            output_type=DecisionResult,
+            system_prompt="你是一名专业的电信客户流失预测分析师，你的任务是根据客户信息预测流失风险并提供决策建议。\n\n" \
+            "你可以使用以下工具：\n" \
+            "1. predict_churn: 使用机器学习模型预测客户流失风险\n" \
+            "2. explain_churn: 解释影响客户流失的关键因素\n\n" \
+            "请确保你的回答专业、准确，并提供具体的行动建议。"
+        )
+        
+        # 注册工具
+        agent.tool(self.predict_churn)
+        agent.tool(self.explain_churn)
+        
+        return agent
+    
+    def predict_churn(self, ctx: RunContext, customer_info: CustomerFeatures) -> float:
+        """预测客户流失风险
+        
+        Args:
+            customer_info: 客户特征信息
+            
+        Returns:
+            流失风险分数 (0-1)
+        """
+        result = self.inferencer.predict_single(customer_info)
+        return result["probability"]
+    
+    def explain_churn(self, ctx: RunContext, customer_info: CustomerFeatures) -> List[str]:
+        """解释影响客户流失的关键因素
+        
+        Args:
+            customer_info: 客户特征信息
+            
+        Returns:
+            影响因素列表
+        """
+        result = self.inferencer.explain_prediction(customer_info)
+        return result["explanation"]
+    
+    def process_query(self, query: str) -> DecisionResult:
+        """处理用户查询
+        
+        Args:
+            query: 用户的自然语言查询
+            
+        Returns:
+            结构化的决策结果
+        """
+        print(f"正在处理查询: {query}")
+        
+        # 运行Agent
+        result = self.agent.run_sync(query)
+        
+        print("查询处理完成")
+        return result
+    
+    def run_interactive(self):
+        """启动交互式对话"""
+        print("欢迎使用客户流失预测Agent！")
+        print("请输入客户信息，我将为您预测流失风险并提供建议。")
+        print("输入'退出'或'quit'结束对话。")
+        
+        while True:
+            try:
+                query = input("\n请输入查询: ")
+                
+                if query.lower() in ["退出", "quit", "q"]:
+                    print("感谢使用，再见！")
+                    break
+                
+                result = self.process_query(query)
+                
+                print("\n=== 预测结果 ===")
+                print(f"流失风险分数: {result.risk_score:.4f}")
+                print(f"决策建议: {result.decision}")
+                print("建议采取的行动:")
+                for action in result.actions:
+                    print(f"  - {action}")
+                print(f"决策理由: {result.rationale}")
+                print("=================")
+                
+            except Exception as e:
+                print(f"处理查询时发生错误: {e}")
+                print("请检查输入或稍后重试。")
+
+
+if __name__ == "__main__":
+    try:
+        # 初始化并启动Agent
+        agent = ChurnPredictionAgent()
+        agent.run_interactive()
+    except Exception as e:
+        print(f"启动Agent时发生错误: {e}")
+        print("请确保已正确配置DEEPSEEK_API_KEY环境变量。")
--- a/ml_course_design/src/data.py
+++ b/ml_course_design/src/data.py
@ -0,0 +1,99 @@
+import polars as pl
+import pandas as pd
+from pathlib import Path
+from typing import Tuple
+
+class DataProcessor:
+    """数据处理类，用于加载和预处理Telco Customer Churn数据集"""
+    
+    def __init__(self, data_path: str | Path = None):
+        """初始化数据处理器
+        
+        Args:
+            data_path: 数据集路径，如果为None则使用默认路径
+        """
+        if data_path is None:
+            self.data_path = Path(__file__).parent.parent / "data" / "WA_Fn-UseC_-Telco-Customer-Churn.csv"
+        else:
+            self.data_path = Path(data_path)
+    
+    def load_data(self) -> pl.DataFrame:
+        """加载原始数据集
+        
+        Returns:
+            加载后的Polars DataFrame
+        """
+        print(f"正在加载数据: {self.data_path}")
+        
+        # 使用Lazy API加载数据，提高效率
+        lf = pl.scan_csv(self.data_path)
+        df = lf.collect()
+        
+        print(f"数据加载完成，共 {df.shape[0]} 行，{df.shape[1]} 列")
+        return df
+    
+    def preprocess_data(self, df: pl.DataFrame) -> Tuple[pl.DataFrame, pl.Series]:
+        """预处理数据集
+        
+        Args:
+            df: 原始数据集
+            
+        Returns:
+            预处理后的特征数据和目标变量
+        """
+        print("开始数据预处理...")
+        
+        # 1. 处理缺失值和异常值
+        # 检查TotalCharges列的类型，如果是字符串类型则处理空字符串
+        if df["TotalCharges"].dtype == pl.String:
+            df = df.with_columns(
+                pl.col("TotalCharges").str.strip_chars().replace("", None)
+            )
+            
+            # 将TotalCharges转换为浮点型
+            df = df.with_columns(
+                pl.col("TotalCharges").cast(pl.Float64, strict=False)
+            )
+        
+        # 处理缺失值 - 删除TotalCharges为None的行
+        df = df.filter(pl.col("TotalCharges").is_not_null())
+        
+        # 2. 处理目标变量
+        # 将Churn转换为数值型 (0=No, 1=Yes)
+        df = df.with_columns(
+            pl.col("Churn").replace({"No": 0, "Yes": 1}).cast(pl.Int32).alias("Churn")
+        )
+        
+        # 3. 选择特征列
+        # 排除customerID（唯一标识，对模型训练无用）
+        feature_cols = [col for col in df.columns if col not in ["customerID", "Churn"]]
+        
+        # 分离特征和目标变量
+        X = df.select(feature_cols)
+        y = df.select("Churn").to_series()
+        
+        print(f"数据预处理完成，特征数据形状: {X.shape}, 目标变量形状: {y.shape}")
+        return X, y
+    
+    def get_processed_data(self) -> Tuple[pl.DataFrame, pl.Series]:
+        """获取完整处理后的数据
+        
+        Returns:
+            预处理后的特征数据和目标变量
+        """
+        df = self.load_data()
+        X, y = self.preprocess_data(df)
+        return X, y
+
+# 用于测试数据处理模块
+if __name__ == "__main__":
+    processor = DataProcessor()
+    X, y = processor.get_processed_data()
+    
+    print("\n特征数据示例:")
+    print(X.head())
+    
+    print("\n目标变量示例:")
+    print(y.head())
+    
+    print(f"\n目标变量分布: {y.value_counts().sort("Churn")}")
--- a/ml_course_design/src/features.py
+++ b/ml_course_design/src/features.py
@ -0,0 +1,125 @@
+from pydantic import BaseModel, Field, validator
+from pandera import Column, Check, DataFrameSchema
+import pandera as pa
+from typing import Literal, Optional
+
+# 定义性别类型
+gender_types = Literal["Male", "Female"]
+
+# 定义Yes/No类型
+yes_no_types = Literal["Yes", "No"]
+
+# 定义服务相关类型
+service_types = Literal["Yes", "No", "No internet service"]
+phone_line_types = Literal["Yes", "No", "No phone service"]
+
+# 定义互联网服务类型
+internet_service_types = Literal["DSL", "Fiber optic", "No"]
+
+# 定义合同类型
+contract_types = Literal["Month-to-month", "One year", "Two year"]
+
+# 定义支付方式类型
+payment_method_types = Literal["Electronic check", "Mailed check", "Bank transfer (automatic)", "Credit card (automatic)"]
+
+
+class CustomerFeatures(BaseModel):
+    """客户特征模型"""
+    # 基本信息
+    gender: gender_types = Field(description="性别")
+    SeniorCitizen: int = Field(ge=0, le=1, description="是否为老年人 (0=No, 1=Yes)")
+    Partner: yes_no_types = Field(description="是否有伴侣")
+    Dependents: yes_no_types = Field(description="是否有家属")
+    tenure: int = Field(ge=0, le=100, description="客户在网时长 (月)")
+    
+    # 电话服务
+    PhoneService: yes_no_types = Field(description="是否有电话服务")
+    MultipleLines: phone_line_types = Field(description="是否有多条线路")
+    
+    # 互联网服务
+    InternetService: internet_service_types = Field(description="互联网服务类型")
+    OnlineSecurity: service_types = Field(description="是否有在线安全服务")
+    OnlineBackup: service_types = Field(description="是否有在线备份服务")
+    DeviceProtection: service_types = Field(description="是否有设备保护服务")
+    TechSupport: service_types = Field(description="是否有技术支持服务")
+    StreamingTV: service_types = Field(description="是否有流媒体电视服务")
+    StreamingMovies: service_types = Field(description="是否有流媒体电影服务")
+    
+    # 合同和账单
+    Contract: contract_types = Field(description="合同类型")
+    PaperlessBilling: yes_no_types = Field(description="是否使用无纸化账单")
+    PaymentMethod: payment_method_types = Field(description="支付方式")
+    MonthlyCharges: float = Field(ge=0, le=200, description="月费用")
+    TotalCharges: float = Field(ge=0, le=10000, description="总费用")
+    
+    class Config:
+        populate_by_name = True
+        from_attributes = True
+
+
+# 定义用于数据验证的DataFrame Schema
+data_schema = DataFrameSchema(
+    columns={
+        # 输入特征
+        "gender": Column(pa.String, checks=Check.isin(["Male", "Female"])),
+        "SeniorCitizen": Column(pa.Int, checks=Check.isin([0, 1])),
+        "Partner": Column(pa.String, checks=Check.isin(["Yes", "No"])),
+        "Dependents": Column(pa.String, checks=Check.isin(["Yes", "No"])),
+        "tenure": Column(pa.Int, checks=Check.ge(0)),
+        "PhoneService": Column(pa.String, checks=Check.isin(["Yes", "No"])),
+        "MultipleLines": Column(pa.String, checks=Check.isin(["Yes", "No", "No phone service"])),
+        "InternetService": Column(pa.String, checks=Check.isin(["DSL", "Fiber optic", "No"])),
+        "OnlineSecurity": Column(pa.String, checks=Check.isin(["Yes", "No", "No internet service"])),
+        "OnlineBackup": Column(pa.String, checks=Check.isin(["Yes", "No", "No internet service"])),
+        "DeviceProtection": Column(pa.String, checks=Check.isin(["Yes", "No", "No internet service"])),
+        "TechSupport": Column(pa.String, checks=Check.isin(["Yes", "No", "No internet service"])),
+        "StreamingTV": Column(pa.String, checks=Check.isin(["Yes", "No", "No internet service"])),
+        "StreamingMovies": Column(pa.String, checks=Check.isin(["Yes", "No", "No internet service"])),
+        "Contract": Column(pa.String, checks=Check.isin(["Month-to-month", "One year", "Two year"])),
+        "PaperlessBilling": Column(pa.String, checks=Check.isin(["Yes", "No"])),
+        "PaymentMethod": Column(pa.String, checks=Check.isin([
+            "Electronic check", "Mailed check", "Bank transfer (automatic)", "Credit card (automatic)"
+        ])),
+        "MonthlyCharges": Column(pa.Float, checks=Check.ge(0)),
+        "TotalCharges": Column(pa.Float, checks=Check.ge(0)),
+        
+        # 目标变量
+        "Churn": Column(pa.Int, checks=Check.isin([0, 1])),
+    },
+    strict=True,
+    coerce=True,
+    name="customer_churn_schema"
+)
+
+
+if __name__ == "__main__":
+    # 测试特征模型
+    print("测试CustomerFeatures模型...")
+    
+    # 创建一个有效的特征实例
+    valid_features = CustomerFeatures(
+        gender="Female",
+        SeniorCitizen=0,
+        Partner="Yes",
+        Dependents="No",
+        tenure=1,
+        PhoneService="No",
+        MultipleLines="No phone service",
+        InternetService="DSL",
+        OnlineSecurity="No",
+        OnlineBackup="Yes",
+        DeviceProtection="No",
+        TechSupport="No",
+        StreamingTV="No",
+        StreamingMovies="No",
+        Contract="Month-to-month",
+        PaperlessBilling="Yes",
+        PaymentMethod="Electronic check",
+        MonthlyCharges=29.85,
+        TotalCharges=29.85
+    )
+    
+    print("有效特征实例:")
+    print(valid_features)
+    
+    print("\n特征模型测试通过!")
--- a/ml_course_design/src/infer.py
+++ b/ml_course_design/src/infer.py
@ -0,0 +1,185 @@
+import joblib
+import pandas as pd
+from pathlib import Path
+from typing import Dict, Any, List, Optional
+
+from .features import CustomerFeatures
+
+
+class ModelInferencer:
+    """模型推理类"""
+    
+    def __init__(self, model_path: str | Path = None):
+        """初始化模型推理器
+        
+        Args:
+            model_path: 模型路径，如果为None则使用默认路径
+        """
+        if model_path is None:
+            self.model_path = Path(__file__).parent.parent / "models" / "best_model_lr.joblib"
+        else:
+            self.model_path = Path(model_path)
+        
+        # 加载模型
+        self.model = self.load_model()
+    
+    def load_model(self) -> Any:
+        """加载训练好的模型
+        
+        Returns:
+            加载的模型对象
+        """
+        print(f"正在加载模型: {self.model_path}")
+        
+        if not self.model_path.exists():
+            raise FileNotFoundError(f"模型文件不存在: {self.model_path}")
+        
+        model = joblib.load(self.model_path)
+        print(f"模型加载成功: {type(model).__name__}")
+        
+        return model
+    
+    def predict_single(self, features: CustomerFeatures) -> Dict[str, Any]:
+        """对单个客户进行流失预测
+        
+        Args:
+            features: 客户特征对象
+            
+        Returns:
+            预测结果，包含流失概率和预测类别
+        """
+        # 将特征转换为DataFrame
+        features_dict = features.model_dump()
+        df = pd.DataFrame([features_dict])
+        
+        # 进行预测
+        prediction = self.model.predict(df)[0]
+        probability = self.model.predict_proba(df)[0][1]
+        
+        # 构造结果
+        result = {
+            "prediction": int(prediction),  # 0=不流失, 1=流失
+            "probability": float(probability),  # 流失概率
+            "churn": bool(prediction),  # 是否流失
+            "features": features_dict
+        }
+        
+        return result
+    
+    def predict_batch(self, features_list: List[CustomerFeatures]) -> List[Dict[str, Any]]:
+        """对多个客户进行批量流失预测
+        
+        Args:
+            features_list: 客户特征对象列表
+            
+        Returns:
+            批量预测结果列表
+        """
+        # 将特征列表转换为DataFrame
+        features_dicts = [features.model_dump() for features in features_list]
+        df = pd.DataFrame(features_dicts)
+        
+        # 进行批量预测
+        predictions = self.model.predict(df)
+        probabilities = self.model.predict_proba(df)[:, 1]
+        
+        # 构造结果列表
+        results = []
+        for i in range(len(predictions)):
+            result = {
+                "prediction": int(predictions[i]),
+                "probability": float(probabilities[i]),
+                "churn": bool(predictions[i]),
+                "features": features_dicts[i]
+            }
+            results.append(result)
+        
+        return results
+    
+    def explain_prediction(self, features: CustomerFeatures) -> Dict[str, Any]:
+        """解释预测结果
+        
+        Args:
+            features: 客户特征对象
+            
+        Returns:
+            包含预测结果和解释的字典
+        """
+        # 获取基本预测结果
+        prediction_result = self.predict_single(features)
+        
+        # 分析影响流失的关键因素
+        key_factors = []
+        
+        # 根据业务知识分析影响因素
+        if features.Contract == "Month-to-month":
+            key_factors.append("月付合同增加了流失风险")
+        
+        if features.tenure < 12:
+            key_factors.append("在网时长较短增加了流失风险")
+        
+        if features.MonthlyCharges > 70:
+            key_factors.append("月费用较高增加了流失风险")
+        
+        if features.InternetService == "Fiber optic":
+            key_factors.append("光纤互联网服务用户流失风险较高")
+        
+        if features.PaymentMethod == "Electronic check":
+            key_factors.append("电子支票支付方式增加了流失风险")
+        
+        if features.PaperlessBilling == "Yes":
+            key_factors.append("无纸化账单用户流失风险较高")
+        
+        # 如果没有找到明显因素
+        if not key_factors:
+            key_factors.append("客户特征组合导致流失风险处于平均水平")
+        
+        # 添加解释到结果中
+        prediction_result["explanation"] = key_factors
+        
+        return prediction_result
+
+
+if __name__ == "__main__":
+    # 测试推理功能
+    print("测试模型推理功能...")
+    
+    # 创建测试特征
+    test_features = CustomerFeatures(
+        gender="Female",
+        SeniorCitizen=0,
+        Partner="Yes",
+        Dependents="No",
+        tenure=1,
+        PhoneService="No",
+        MultipleLines="No phone service",
+        InternetService="DSL",
+        OnlineSecurity="No",
+        OnlineBackup="Yes",
+        DeviceProtection="No",
+        TechSupport="No",
+        StreamingTV="No",
+        StreamingMovies="No",
+        Contract="Month-to-month",
+        PaperlessBilling="Yes",
+        PaymentMethod="Electronic check",
+        MonthlyCharges=29.85,
+        TotalCharges=29.85
+    )
+    
+    # 初始化推理器
+    inferencer = ModelInferencer()
+    
+    # 进行单例预测
+    result = inferencer.predict_single(test_features)
+    print("\n单例预测结果:")
+    print(result)
+    
+    # 进行预测解释
+    explained_result = inferencer.explain_prediction(test_features)
+    print("\n预测解释:")
+    print(f"流失概率: {explained_result['probability']:.4f}")
+    print(f"预测结果: {'流失' if explained_result['churn'] else '不流失'}")
+    print("影响因素:")
+    for factor in explained_result['explanation']:
+        print(f"  - {factor}")
--- a/ml_course_design/src/streamlit_app.py
+++ b/ml_course_design/src/streamlit_app.py
@ -0,0 +1,247 @@
+import streamlit as st
+import pandas as pd
+import plotly.express as px
+import plotly.graph_objects as go
+from pathlib import Path
+
+# 使用绝对导入或直接导入
+import sys
+from pathlib import Path
+
+# 添加项目根目录到Python路径
+sys.path.append(str(Path(__file__).parent.parent))
+
+from src.features import CustomerFeatures
+from src.infer import ModelInferencer
+
+
+class ChurnPredictionApp:
+    """客户流失预测Streamlit应用"""
+    
+    def __init__(self):
+        """初始化应用"""
+        # 设置页面配置
+        st.set_page_config(
+            page_title="客户流失预测系统",
+            page_icon="📊",
+            layout="wide",
+            initial_sidebar_state="expanded"
+        )
+        
+        # 初始化推理器
+        self.inferencer = ModelInferencer()
+        
+        # 设置应用标题和说明
+        self._set_app_header()
+    
+    def _set_app_header(self):
+        """设置应用标题和说明"""
+        st.title("📊 客户流失预测系统")
+        st.markdown("---")
+        st.write("这是一个基于机器学习的电信客户流失预测系统。输入客户信息，系统将预测该客户的流失风险并提供针对性建议。")
+    
+    def _create_input_form(self) -> dict:
+        """创建客户信息输入表单
+        
+        Returns:
+            输入的客户信息字典
+        """
+        with st.sidebar.form("customer_info_form"):
+            st.header("客户信息")
+            
+            # 基本信息
+            st.subheader("基本信息")
+            gender = st.selectbox("性别", ["Male", "Female"])
+            senior_citizen = st.selectbox("是否为老年人", [0, 1], format_func=lambda x: "是" if x == 1 else "否")
+            partner = st.selectbox("是否有伴侣", ["Yes", "No"], format_func=lambda x: "是" if x == "Yes" else "否")
+            dependents = st.selectbox("是否有家属", ["Yes", "No"], format_func=lambda x: "是" if x == "Yes" else "否")
+            tenure = st.number_input("在网时长（月）", min_value=0, max_value=100, value=1)
+            
+            # 电话服务
+            st.subheader("电话服务")
+            phone_service = st.selectbox("是否有电话服务", ["Yes", "No"], format_func=lambda x: "是" if x == "Yes" else "否")
+            
+            if phone_service == "Yes":
+                multiple_lines = st.selectbox("是否有多条线路", ["Yes", "No"])
+            else:
+                multiple_lines = "No phone service"
+            
+            # 互联网服务
+            st.subheader("互联网服务")
+            internet_service = st.selectbox("互联网服务类型", ["DSL", "Fiber optic", "No"])
+            
+            if internet_service != "No":
+                online_security = st.selectbox("是否有在线安全服务", ["Yes", "No"])
+                online_backup = st.selectbox("是否有在线备份服务", ["Yes", "No"])
+                device_protection = st.selectbox("是否有设备保护服务", ["Yes", "No"])
+                tech_support = st.selectbox("是否有技术支持服务", ["Yes", "No"])
+                streaming_tv = st.selectbox("是否有流媒体电视服务", ["Yes", "No"])
+                streaming_movies = st.selectbox("是否有流媒体电影服务", ["Yes", "No"])
+            else:
+                online_security = "No internet service"
+                online_backup = "No internet service"
+                device_protection = "No internet service"
+                tech_support = "No internet service"
+                streaming_tv = "No internet service"
+                streaming_movies = "No internet service"
+            
+            # 合同和账单
+            st.subheader("合同和账单")
+            contract = st.selectbox("合同类型", ["Month-to-month", "One year", "Two year"])
+            paperless_billing = st.selectbox("是否使用无纸化账单", ["Yes", "No"], format_func=lambda x: "是" if x == "Yes" else "否")
+            payment_method = st.selectbox(
+                "支付方式", 
+                ["Electronic check", "Mailed check", "Bank transfer (automatic)", "Credit card (automatic)"]
+            )
+            monthly_charges = st.number_input("月费用", min_value=0.0, max_value=200.0, value=29.85, step=0.01)
+            total_charges = st.number_input("总费用", min_value=0.0, max_value=10000.0, value=29.85, step=0.01)
+            
+            # 提交按钮
+            submit_button = st.form_submit_button("预测流失风险")
+        
+        # 构造特征字典
+        features_dict = {
+            "gender": gender,
+            "SeniorCitizen": senior_citizen,
+            "Partner": partner,
+            "Dependents": dependents,
+            "tenure": tenure,
+            "PhoneService": phone_service,
+            "MultipleLines": multiple_lines,
+            "InternetService": internet_service,
+            "OnlineSecurity": online_security,
+            "OnlineBackup": online_backup,
+            "DeviceProtection": device_protection,
+            "TechSupport": tech_support,
+            "StreamingTV": streaming_tv,
+            "StreamingMovies": streaming_movies,
+            "Contract": contract,
+            "PaperlessBilling": paperless_billing,
+            "PaymentMethod": payment_method,
+            "MonthlyCharges": monthly_charges,
+            "TotalCharges": total_charges
+        }
+        
+        return features_dict, submit_button
+    
+    def _display_prediction_result(self, result: dict):
+        """展示预测结果
+        
+        Args:
+            result: 预测结果字典
+        """
+        st.markdown("---")
+        st.header("预测结果")
+        
+        # 创建两列布局
+        col1, col2 = st.columns(2)
+        
+        with col1:
+            # 显示流失风险分数
+            st.subheader("📈 流失风险评分")
+            
+            # 创建风险评分可视化
+            risk_score = result["probability"]
+            risk_percentage = risk_score * 100
+            
+            # 确定风险等级
+            if risk_score < 0.3:
+                risk_level = "低风险"
+                color = "green"
+            elif risk_score < 0.7:
+                risk_level = "中风险"
+                color = "orange"
+            else:
+                risk_level = "高风险"
+                color = "red"
+            
+            # 使用进度条显示风险评分
+            st.progress(risk_score)
+            st.write(f"**风险等级:** <span style='color:{color}; font-weight:bold;'>{risk_level}</span>", unsafe_allow_html=True)
+            st.write(f"**风险概率:** {risk_percentage:.1f}%")
+            st.write(f"**预测结果:** {'⚠️ 可能流失' if result['churn'] else '✅ 不太可能流失'}")
+        
+        with col2:
+            # 显示影响因素
+            st.subheader("🔍 影响因素分析")
+            
+            # 检查是否有解释信息
+            if "explanation" in result:
+                for factor in result["explanation"]:
+                    st.write(f"- {factor}")
+            else:
+                st.write("暂无影响因素分析")
+        
+        # 显示详细特征
+        with st.expander("📋 详细客户信息"):
+            df_features = pd.DataFrame.from_dict(result["features"], orient="index", columns=["值"])
+            st.dataframe(df_features, use_container_width=True)
+        
+        # 显示建议
+        st.subheader("💡 建议采取的行动")
+        if result["churn"]:
+            st.markdown("""
+            - 主动联系客户，了解其需求和不满
+            - 提供针对性的优惠活动，如折扣或礼品
+            - 分析客户使用习惯，推荐更适合的套餐
+            - 加强客户服务，提高客户满意度
+            """)
+        else:
+            st.markdown("""
+            - 继续保持良好的客户服务
+            - 定期推送个性化的优惠信息
+            - 关注客户使用行为变化
+            - 鼓励客户升级套餐或添加新服务
+            """)
+    
+    def _show_data_statistics(self):
+        """显示数据统计信息"""
+        st.markdown("---")
+        st.header("📊 数据统计信息")
+        
+        # 创建模拟的流失数据统计
+        data = {
+            "合同类型": ["月付", "一年", "两年"],
+            "客户数": [4200, 2100, 732],
+            "流失率": [0.42, 0.18, 0.09]
+        }
+        
+        df = pd.DataFrame(data)
+        
+        # 显示合同类型与流失率的关系
+        fig = px.bar(df, x="合同类型", y="流失率", color="合同类型", 
+                     title="不同合同类型的客户流失率",
+                     labels={"流失率": "流失率(%)"}, 
+                     hover_data={"客户数": True})
+        fig.update_traces(hovertemplate="合同类型: %{x}<br>流失率: %{y:.1%}<br>客户数: %{customdata[0]}")
+        st.plotly_chart(fig, use_container_width=True)
+    
+    def run(self):
+        """运行应用"""
+        # 创建输入表单
+        features_dict, submit_button = self._create_input_form()
+        
+        # 当用户点击预测按钮时
+        if submit_button:
+            try:
+                # 验证输入并创建特征对象
+                features = CustomerFeatures(**features_dict)
+                
+                # 进行预测
+                with st.spinner("正在预测..."):
+                    result = self.inferencer.explain_prediction(features)
+                
+                # 展示预测结果
+                self._display_prediction_result(result)
+                
+            except Exception as e:
+                st.error(f"预测过程中发生错误: {e}")
+        
+        # 显示数据统计信息
+        self._show_data_statistics()
+
+
+if __name__ == "__main__":
+    # 启动应用
+    app = ChurnPredictionApp()
+    app.run()
--- a/ml_course_design/src/train.py
+++ b/ml_course_design/src/train.py
@ -0,0 +1,310 @@
+import polars as pl
+import pandas as pd
+from sklearn.model_selection import train_test_split
+from sklearn.preprocessing import StandardScaler, OneHotEncoder
+from sklearn.compose import ColumnTransformer
+from sklearn.pipeline import Pipeline
+from sklearn.linear_model import LogisticRegression
+from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score
+import lightgbm as lgb
+import joblib
+from pathlib import Path
+import matplotlib.pyplot as plt
+import seaborn as sns
+import sys
+
+# 添加项目根目录到Python路径，解决直接运行时的导入问题
+project_root = Path(__file__).parent.parent
+sys.path.insert(0, str(project_root))
+
+from src.data import DataProcessor
+from src.features import data_schema
+
+
+class ModelTrainer:
+    """模型训练类"""
+    
+    def __init__(self, models_dir: str | Path = None):
+        """初始化模型训练器
+        
+        Args:
+            models_dir: 模型保存目录，如果为None则使用默认路径
+        """
+        if models_dir is None:
+            self.models_dir = Path(__file__).parent.parent / "models"
+        else:
+            self.models_dir = Path(models_dir)
+        
+        # 确保模型目录存在
+        self.models_dir.mkdir(parents=True, exist_ok=True)
+    
+    def prepare_data(self) -> tuple:
+        """准备训练数据
+        
+        Returns:
+            训练集、验证集和测试集（X_train, X_val, X_test, y_train, y_val, y_test）
+        """
+        print("准备训练数据...")
+        
+        # 加载和预处理数据
+        processor = DataProcessor()
+        X, y = processor.get_processed_data()
+        
+        # 转换为pandas DataFrame以便与scikit-learn兼容
+        X_pandas = X.to_pandas()
+        y_pandas = y.to_pandas()
+        
+        # 划分训练集和测试集 (80% train, 20% test)
+        X_train_val, X_test, y_train_val, y_test = train_test_split(
+            X_pandas, y_pandas, test_size=0.2, random_state=42, stratify=y_pandas
+        )
+        
+        # 从训练集中划分验证集 (75% train, 25% val)
+        X_train, X_val, y_train, y_val = train_test_split(
+            X_train_val, y_train_val, test_size=0.25, random_state=42, stratify=y_train_val
+        )
+        
+        print(f"训练集: {X_train.shape}")
+        print(f"验证集: {X_val.shape}")
+        print(f"测试集: {X_test.shape}")
+        
+        return X_train, X_val, X_test, y_train, y_val, y_test
+    
+    def create_preprocessor(self, X_train: pd.DataFrame) -> ColumnTransformer:
+        """创建数据预处理管道
+        
+        Args:
+            X_train: 训练集数据，用于获取特征信息
+            
+        Returns:
+            数据预处理管道
+        """
+        print("创建数据预处理管道...")
+        
+        # 分离数值特征和分类特征
+        numeric_features = X_train.select_dtypes(include=['int64', 'float64']).columns.tolist()
+        categorical_features = X_train.select_dtypes(include=['object']).columns.tolist()
+        
+        print(f"数值特征: {numeric_features}")
+        print(f"分类特征: {categorical_features}")
+        
+        # 创建数值特征处理管道
+        numeric_transformer = Pipeline(steps=[
+            ('scaler', StandardScaler())
+        ])
+        
+        # 创建分类特征处理管道
+        categorical_transformer = Pipeline(steps=[
+            ('onehot', OneHotEncoder(handle_unknown='ignore'))
+        ])
+        
+        # 创建完整的预处理管道
+        preprocessor = ColumnTransformer(
+            transformers=[
+                ('num', numeric_transformer, numeric_features),
+                ('cat', categorical_transformer, categorical_features)
+            ])
+        
+        return preprocessor
+    
+    def train_logistic_regression(self, preprocessor: ColumnTransformer, X_train: pd.DataFrame, y_train: pd.Series) -> Pipeline:
+        """训练Logistic Regression模型
+        
+        Args:
+            preprocessor: 数据预处理管道
+            X_train: 训练集特征
+            y_train: 训练集目标变量
+            
+        Returns:
+            训练好的Logistic Regression模型管道
+        """
+        print("训练Logistic Regression模型...")
+        
+        # 创建Logistic Regression模型管道
+        lr_pipeline = Pipeline(steps=[
+            ('preprocessor', preprocessor),
+            ('classifier', LogisticRegression(max_iter=1000, random_state=42))
+        ])
+        
+        # 训练模型
+        lr_pipeline.fit(X_train, y_train)
+        
+        return lr_pipeline
+    
+    def train_lightgbm(self, preprocessor: ColumnTransformer, X_train: pd.DataFrame, y_train: pd.Series) -> tuple:
+        """训练LightGBM模型
+        
+        Args:
+            preprocessor: 数据预处理管道
+            X_train: 训练集特征
+            y_train: 训练集目标变量
+            
+        Returns:
+            预处理后的特征、训练好的LightGBM模型
+        """
+        print("训练LightGBM模型...")
+        
+        # 预处理训练数据
+        X_train_preprocessed = preprocessor.fit_transform(X_train)
+        
+        # 获取特征名称
+        num_features = preprocessor.transformers_[0][2]
+        cat_features = preprocessor.named_transformers_['cat'].get_feature_names_out()
+        feature_names = num_features + list(cat_features)
+        
+        # 创建LightGBM数据集
+        lgb_train = lgb.Dataset(X_train_preprocessed, y_train, feature_name=feature_names)
+        
+        # 设置LightGBM参数
+        params = {
+            'objective': 'binary',
+            'metric': 'binary_logloss',
+            'learning_rate': 0.05,
+            'n_estimators': 500,
+            'random_state': 42,
+            'verbose': -1
+        }
+        
+        # 训练LightGBM模型
+        lgb_model = lgb.train(
+            params,
+            lgb_train,
+            num_boost_round=500,
+            valid_sets=[lgb_train],
+            callbacks=[lgb.log_evaluation(period=100)]
+        )
+        
+        return feature_names, lgb_model
+    
+    def evaluate_model(self, model: Pipeline | lgb.Booster, preprocessor: ColumnTransformer, 
+                      X: pd.DataFrame, y: pd.Series, model_name: str) -> dict:
+        """评估模型性能
+        
+        Args:
+            model: 要评估的模型
+            preprocessor: 数据预处理管道
+            X: 测试数据特征
+            y: 测试数据目标变量
+            model_name: 模型名称
+            
+        Returns:
+            模型性能指标
+        """
+        print(f"评估{model_name}模型...")
+        
+        # 预测概率
+        if isinstance(model, Pipeline):
+            y_pred_proba = model.predict_proba(X)[:, 1]
+            y_pred = model.predict(X)
+        else:
+            # LightGBM模型
+            X_preprocessed = preprocessor.transform(X)
+            y_pred_proba = model.predict(X_preprocessed)
+            y_pred = (y_pred_proba >= 0.5).astype(int)
+        
+        # 计算性能指标
+        metrics = {
+            'accuracy': accuracy_score(y, y_pred),
+            'precision': precision_score(y, y_pred),
+            'recall': recall_score(y, y_pred),
+            'f1': f1_score(y, y_pred),
+            'roc_auc': roc_auc_score(y, y_pred_proba)
+        }
+        
+        print(f"{model_name} 模型性能:")
+        for metric_name, value in metrics.items():
+            print(f"  {metric_name}: {value:.4f}")
+        
+        return metrics
+    
+    def save_model(self, model: Pipeline | lgb.Booster, preprocessor: ColumnTransformer, 
+                   feature_names: list = None, model_name: str = "best_model"):
+        """保存模型和预处理工具
+        
+        Args:
+            model: 要保存的模型
+            preprocessor: 数据预处理管道
+            feature_names: 特征名称列表（仅LightGBM需要）
+            model_name: 模型名称
+        """
+        print(f"保存{model_name}模型...")
+        
+        if isinstance(model, Pipeline):
+            # 保存完整的管道模型
+            model_path = self.models_dir / f"{model_name}.joblib"
+            joblib.dump(model, model_path)
+        else:
+            # 保存LightGBM模型
+            model_path = self.models_dir / f"{model_name}.joblib"
+            joblib.dump(model, model_path)
+            
+            # 保存预处理管道
+            preprocessor_path = self.models_dir / "preprocessor.joblib"
+            joblib.dump(preprocessor, preprocessor_path)
+            
+            # 保存特征名称
+            features_path = self.models_dir / "features.joblib"
+            joblib.dump(feature_names, features_path)
+        
+        print(f"模型保存成功: {model_path}")
+    
+    def train_and_evaluate(self):
+        """完整的训练和评估流程"""
+        print("开始模型训练和评估流程...")
+        
+        # 1. 准备数据
+        X_train, X_val, X_test, y_train, y_val, y_test = self.prepare_data()
+        
+        # 2. 创建预处理管道
+        preprocessor = self.create_preprocessor(X_train)
+        
+        # 3. 训练Logistic Regression模型
+        lr_model = self.train_logistic_regression(preprocessor, X_train, y_train)
+        
+        # 4. 评估Logistic Regression模型
+        lr_train_metrics = self.evaluate_model(lr_model, preprocessor, X_train, y_train, "Logistic Regression (训练集)")
+        lr_val_metrics = self.evaluate_model(lr_model, preprocessor, X_val, y_val, "Logistic Regression (验证集)")
+        
+        # 5. 训练LightGBM模型
+        feature_names, lgb_model = self.train_lightgbm(preprocessor, X_train, y_train)
+        
+        # 6. 评估LightGBM模型
+        lgb_train_metrics = self.evaluate_model(lgb_model, preprocessor, X_train, y_train, "LightGBM (训练集)")
+        lgb_val_metrics = self.evaluate_model(lgb_model, preprocessor, X_val, y_val, "LightGBM (验证集)")
+        
+        # 7. 选择最佳模型
+        print("\n选择最佳模型...")
+        best_model = None
+        best_model_name = ""
+        
+        if lr_val_metrics['roc_auc'] > lgb_val_metrics['roc_auc']:
+            best_model = lr_model
+            best_model_name = "Logistic Regression"
+        else:
+            best_model = lgb_model
+            best_model_name = "LightGBM"
+        
+        print(f"最佳模型: {best_model_name}")
+        
+        # 8. 在测试集上评估最佳模型
+        print(f"\n在测试集上评估{best_model_name}模型...")
+        if isinstance(best_model, Pipeline):
+            best_test_metrics = self.evaluate_model(best_model, preprocessor, X_test, y_test, "Best Model (测试集)")
+        else:
+            best_test_metrics = self.evaluate_model(best_model, preprocessor, X_test, y_test, "Best Model (测试集)")
+        
+        # 9. 保存最佳模型
+        if isinstance(best_model, Pipeline):
+            self.save_model(best_model, preprocessor, model_name="best_model_lr")
+        else:
+            self.save_model(best_model, preprocessor, feature_names, model_name="best_model")
+        
+        print("\n模型训练和评估流程完成!")
+        
+        return best_model, best_test_metrics
+
+
+if __name__ == "__main__":
+    # 运行模型训练和评估
+    trainer = ModelTrainer()
+    best_model, test_metrics = trainer.train_and_evaluate()
--- a/ml_course_design/uv.lock
+++ b/ml_course_design/uv.lock
--- a/run_agent.bat
+++ b/run_agent.bat
@ -0,0 +1,30 @@
+@echo off
+REM 电信客户流失预测Agent启动脚本
+
+set "PROJECT_ROOT=%~dp0ml_course_design"
+
+REM 检查项目根目录是否存在
+if not exist "%PROJECT_ROOT%" (
+    echo 错误: 项目根目录不存在于 "%PROJECT_ROOT%"
+    echo 请确保该脚本与 ml_course_design 文件夹位于同一目录下
+    pause
+    exit /b 1
+)
+
+REM 检查uv是否已安装
+where uv >nul 2>nul
+if %errorlevel% neq 0 (
+    echo 错误: 未找到uv命令
+    echo 请先安装uv: pip install uv
+    pause
+    exit /b 1
+)
+
+REM 切换到项目根目录并启动Agent应用
+echo 正在启动客户流失预测Agent...
+echo 项目根目录: %PROJECT_ROOT%
+cd /d "%PROJECT_ROOT%"
+uv run python -m src.agent_app
+
+REM 等待用户按下任意键退出
+pause
--- a/run_agent.ps1
+++ b/run_agent.ps1
@ -0,0 +1,32 @@
+# 电信客户流失预测Agent启动脚本 (PowerShell版本)
+
+# 设置项目根目录
+$ProjectRoot = "$PSScriptRoot\ml_course_design"
+
+# 检查项目根目录是否存在
+if(-not (Test-Path $ProjectRoot)){
+    Write-Host "错误: 项目根目录不存在于 $ProjectRoot" -ForegroundColor Red
+    Write-Host "请确保该脚本与 ml_course_design 文件夹位于同一目录下" -ForegroundColor Yellow
+    Pause
+    exit 1
+}
+
+# 检查uv是否已安装
+if(-not (Get-Command "uv" -ErrorAction SilentlyContinue)){
+    Write-Host "错误: 未找到uv命令" -ForegroundColor Red
+    Write-Host "请先安装uv: pip install uv" -ForegroundColor Yellow
+    Pause
+    exit 1
+}
+
+# 切换到项目根目录并启动Agent应用
+Write-Host "正在启动客户流失预测Agent..." -ForegroundColor Green
+Write-Host "项目根目录: $ProjectRoot" -ForegroundColor Cyan
+Set-Location -Path $ProjectRoot
+
+# 启动Agent应用
+uv run python -m src.agent_app
+
+# 等待用户按下任意键退出
+Write-Host "\n按任意键退出..." -ForegroundColor Gray
+$x = $host.ui.RawUI.ReadKey("NoEcho,IncludeKeyDown")
--- a/start_agent.py
+++ b/start_agent.py
@ -0,0 +1,57 @@
+#!/usr/bin/env python3
+"""
+电信客户流失预测Agent启动脚本
+"""
+
+import os
+import sys
+import subprocess
+from pathlib import Path
+
+def main():
+    # 获取当前脚本所在目录
+    script_dir = Path(__file__).parent
+    
+    # 项目根目录
+    project_root = script_dir / "ml_course_design"
+    
+    print(f"当前脚本目录: {script_dir}")
+    print(f"项目根目录: {project_root}")
+    
+    # 检查项目根目录是否存在
+    if not project_root.exists():
+        print(f"错误: 项目根目录不存在于 {project_root}")
+        print("请确保该脚本与 ml_course_design 文件夹位于同一目录下")
+        input("按回车键退出...")
+        return 1
+    
+    # 检查uv是否已安装
+    try:
+        subprocess.run(["uv", "--version"], check=True, capture_output=True, text=True)
+    except subprocess.CalledProcessError:
+        print("错误: 未找到uv命令")
+        print("请先安装uv: pip install uv")
+        input("按回车键退出...")
+        return 1
+    
+    # 切换到项目根目录并启动Agent应用
+    print("正在启动客户流失预测Agent...")
+    print(f"\n使用以下命令启动Agent:")
+    print(f"cd {project_root} && uv run python -m src.agent_app")
+    
+    # 执行命令
+    try:
+        subprocess.run(
+            ["uv", "run", "python", "-m", "src.agent_app"],
+            cwd=str(project_root),
+            check=True
+        )
+    except subprocess.CalledProcessError as e:
+        print(f"启动失败: {e}")
+        input("按回车键退出...")
+        return 1
+    
+    return 0
+
+if __name__ == "__main__":
+    sys.exit(main())
--- a/test_agent.py
+++ b/test_agent.py
@ -0,0 +1,34 @@
+import os
+import sys
+from pathlib import Path
+
+# 获取项目根目录
+project_root = Path(r"c:\Users\HUANGYING\Desktop\jqxx\新建文件夹 (4)\ml_course_design")
+
+# 将项目根目录添加到Python路径
+sys.path.insert(0, str(project_root))
+
+print(f"项目根目录: {project_root}")
+print(f"Python路径中包含项目根目录: {str(project_root) in sys.path}")
+
+# 测试导入
+print("\n测试导入...")
+try:
+    from src.agent_app import ChurnPredictionAgent
+    print("✅ 成功导入ChurnPredictionAgent!")
+    
+    # 测试创建Agent实例
+    agent = ChurnPredictionAgent()
+    print("✅ 成功创建Agent实例!")
+    
+    print(f"\n🎉 测试成功! 现在可以使用以下命令运行Agent应用:")
+    print(r"   cd 'c:\Users\HUANGYING\Desktop\jqxx\新建文件夹 (4)\ml_course_design' ; uv run python -m src.agent_app")
+    
+except ImportError as e:
+    print(f"❌ 导入失败: {e}")
+    sys.exit(1)
+except Exception as e:
+    print(f"❌ 其他错误: {e}")
+    import traceback
+    traceback.print_exc()
+    sys.exit(1)
--- a/0
+++ b/0