docs: increase demo grading weight to 20%

This commit is contained in:
sit002 2026-01-01 11:31:08 +08:00
parent e79afd48df
commit 43069baf03

View File

@ -333,7 +333,7 @@ DEEPSEEK_API_KEY=your-key-here
``` ```
ml_course_design_template/ ml_course_design_template/
├── README.md # 项目说明 ├── REPORT.md # 项目报告
├── requirements.txt # Python 依赖 ├── requirements.txt # Python 依赖
├── .env.example # 环境变量模板(不含真实密钥) ├── .env.example # 环境变量模板(不含真实密钥)
├── .gitignore # Git 忽略规则 ├── .gitignore # Git 忽略规则
@ -353,6 +353,7 @@ ml_course_design_template/
│ ├── train.py # 训练与离线评估 │ ├── train.py # 训练与离线评估
│ ├── infer.py # 推理接口(给 Agent 的 tool 调用) │ ├── infer.py # 推理接口(给 Agent 的 tool 调用)
│ └── agent_app.py # pydantic-ai Agent 入口 │ └── agent_app.py # pydantic-ai Agent 入口
│ └── streamlit_app.py # Streamlit demo 入口
└── tests/ # 测试(建议至少覆盖 3 个关键函数) └── tests/ # 测试(建议至少覆盖 3 个关键函数)
├── __init__.py ├── __init__.py
@ -375,39 +376,35 @@ ml_course_design_template/
### 评分标准(总分 100 ### 评分标准(总分 100
#### A. 问题与数据15 分) #### A. 问题与数据10 分)
| 维度 | 分值 | 要求 | | 维度 | 分值 | 要求 |
|------|------|------| |------|------|------|
| 任务定义清晰 | 5 | 标签/目标是什么、为什么重要、输入输出边界 | | 任务定义清晰 | 5 | 标签/目标是什么、为什么重要、输入输出边界 |
| 数据说明完整 | 5 | 来源链接、字段含义、样本量、潜在偏差/缺失 | | 数据说明与切分 | 5 | 来源链接、字段含义;明确的随机/时间切分与防泄露措施 |
| 切分与泄露防护 | 5 | 随机/分层/时间切分说明;明确避免目标泄露 |
#### B. 传统机器学习35 分) #### B. 传统机器学习30 分)
| 维度 | 分值 | 要求 | | 维度 | 分值 | 要求 |
|------|------|------| |------|------|------|
| 基线与可复现训练 | 10 | 固定随机种子、训练脚本能跑通、基线合理 | | 基线与可复现训练 | 10 | 固定随机种子、训练脚本能跑通、基线合理 |
| 指标与对比 | 10 | 指标选择正确,并与至少 1 个强/弱基线对比 | | 指标与对比 | 10 | 指标选择正确,并与至少 1 个强/弱基线对比 |
| 误差分析 | 10 | 展示错误样本/分桶/特征影响,给出改进方向 | | 误差分析 | 10 | 展示错误样本/分桶/特征影响,给出改进方向 |
| 结果可信度 | 5 | 阈值/校准/稳定性(任选其一做到位即可) |
#### C. LLM + Agent35 分) #### C. LLM + Agent30 分)
| 维度 | 分值 | 要求 | | 维度 | 分值 | 要求 |
|------|------|------| |------|------|------|
| 工具调用 | 10 | 至少 2 个 tools能稳定调用 ML 工具(不是「假调用」) | | 工具调用 | 10 | 至少 2 个 tools能稳定调用 ML 工具(不是「假调用」) |
| 结构化输出 | 10 | Pydantic schema 清晰;字段有约束;失败能重试/兜底 | | 结构化输出 | 10 | Pydantic schema 清晰;字段有约束;失败能重试/兜底 |
| 建议可执行且有证据 | 10 | 能落地的动作清单,并能引用依据(禁止编造事实) | | 建议可执行且有证据 | 10 | 能落地的动作清单,并能引用依据(禁止编造事实) |
| 边界与安全 | 5 | 能处理异常输入;对敏感输出做规则约束 |
#### D. 工程与规范15 分) #### D. 工程与演示30 分)
| 维度 | 分值 | 要求 | | 维度 | 分值 | 要求 |
|------|------|------| |------|------|------|
| 可运行与可复现 | 5 | README 步骤清楚;干净环境可复现;依赖明确 | | **Streamlit 演示** | **20** | **交互流畅能完整展示「预测→分析→建议」全流程UI 美观** |
| 代码结构与风格 | 5 | 模块化、命名清晰、类型提示/Docstring 到位 | | 代码质量与规范 | 10 | 结构清晰、模块化、有类型提示与文档;干净环境可一键运行 |
| 演示质量 | 5 | demo 端到端连贯;能说明架构与关键取舍 |
### ❌ 常见扣分项 ### ❌ 常见扣分项