docs: increase demo grading weight to 20%

2026-01-01 11:31:08 +08:00 · 2026-01-01 11:31:08 +08:00 · 43069baf03
commit 43069baf03
parent e79afd48df
1 changed files with 9 additions and 12 deletions
--- a/README.md
+++ b/README.md
@ -333,7 +333,7 @@ DEEPSEEK_API_KEY=your-key-here
 ```
 ml_course_design_template/
-├── README.md                 # 项目说明
+├── REPORT.md                 # 项目报告
 ├── requirements.txt          # Python 依赖
 ├── .env.example              # 环境变量模板（不含真实密钥）
 ├── .gitignore                # Git 忽略规则
@ -353,6 +353,7 @@ ml_course_design_template/
 │   ├── train.py              # 训练与离线评估
 │   ├── infer.py              # 推理接口（给 Agent 的 tool 调用）
 │   └── agent_app.py          # pydantic-ai Agent 入口
 │   └── streamlit_app.py      # Streamlit demo 入口
 │
 └── tests/                    # 测试（建议至少覆盖 3 个关键函数）
    ├── __init__.py
@ -375,39 +376,35 @@ ml_course_design_template/
 ### 评分标准（总分 100）
-#### A. 问题与数据（15 分）
+#### A. 问题与数据（10 分）
 | 维度 | 分值 | 要求 |
 |------|------|------|
 | 任务定义清晰 | 5 | 标签/目标是什么、为什么重要、输入输出边界 |
-| 数据说明完整 | 5 | 来源链接、字段含义、样本量、潜在偏差/缺失 |
+| 数据说明与切分 | 5 | 来源链接、字段含义；明确的随机/时间切分与防泄露措施 |
 | 切分与泄露防护 | 5 | 随机/分层/时间切分说明；明确避免目标泄露 |
-#### B. 传统机器学习（35 分）
+#### B. 传统机器学习（30 分）
 | 维度 | 分值 | 要求 |
 |------|------|------|
 | 基线与可复现训练 | 10 | 固定随机种子、训练脚本能跑通、基线合理 |
 | 指标与对比 | 10 | 指标选择正确，并与至少 1 个强/弱基线对比 |
 | 误差分析 | 10 | 展示错误样本/分桶/特征影响，给出改进方向 |
 | 结果可信度 | 5 | 阈值/校准/稳定性（任选其一做到位即可） |
-#### C. LLM + Agent（35 分）
+#### C. LLM + Agent（30 分）
 | 维度 | 分值 | 要求 |
 |------|------|------|
 | 工具调用 | 10 | 至少 2 个 tools，能稳定调用 ML 工具（不是「假调用」） |
 | 结构化输出 | 10 | Pydantic schema 清晰；字段有约束；失败能重试/兜底 |
 | 建议可执行且有证据 | 10 | 能落地的动作清单，并能引用依据（禁止编造事实） |
 | 边界与安全 | 5 | 能处理异常输入；对敏感输出做规则约束 |
-#### D. 工程与规范（15 分）
+#### D. 工程与演示（30 分）
 | 维度 | 分值 | 要求 |
 |------|------|------|
-| 可运行与可复现 | 5 | README 步骤清楚；干净环境可复现；依赖明确 |
+| **Streamlit 演示** | **20** | **交互流畅；能完整展示「预测→分析→建议」全流程；UI 美观** |
-| 代码结构与风格 | 5 | 模块化、命名清晰、类型提示/Docstring 到位 |
+| 代码质量与规范 | 10 | 结构清晰、模块化、有类型提示与文档；干净环境可一键运行 |
 | 演示质量 | 5 | demo 端到端连贯；能说明架构与关键取舍 |
 ### ❌ 常见扣分项