2311020116_CreditCardFraudD.../data/README.md
2311020116lhh b6aef53ef0 feat: 初始化信用卡欺诈检测系统项目
- 添加项目基础结构,包括数据模型、训练、推理和Agent模块
- 实现数据处理、特征工程和模型训练功能
- 添加测试用例和文档说明
- 配置项目依赖和环境变量
2026-01-15 16:20:26 +08:00

57 lines
2.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 数据来源说明
## 数据集信息
| 项目 | 说明 |
|------|------|
| 数据集名称 | Credit Card Fraud Detection |
| 数据来源 | Kaggle |
| 数据链接 | https://www.kaggle.com/mlg-ulb/creditcardfraud |
| 样本量 | 284,807 条 |
| 特征数 | 30 个28个V特征、时间、金额 |
| 标签数 | 1 个Class: 0=正常, 1=欺诈) |
## 数据描述
该数据集包含2013年9月欧洲持卡人通过信用卡进行的交易数据。数据集在两天内发生其中包含492起欺诈交易。数据集高度不平衡欺诈交易仅占所有交易的0.172%。
### 特征说明
- **Time**: 交易发生的时间(秒),相对于数据集中第一个交易的时间
- **V1-V28**: 经过PCA转换后的特征为了保护用户隐私原始特征已被匿名化处理
- **Amount**: 交易金额
- **Class**: 标签列0表示正常交易1表示欺诈交易
## 数据切分策略
本项目采用**时间序列切分**策略,按照交易发生的时间顺序将数据集划分为训练集和测试集:
- **训练集**: 前80%的数据(按时间排序)
- **测试集**: 后20%的数据(按时间排序)
这种切分策略的优势:
1. 符合实际应用场景,模型需要基于历史数据预测未来交易
2. 避免数据泄露,确保测试集的时间晚于训练集
3. 能够评估模型在时间序列上的泛化能力
## 数据预处理
1. **缺失值处理**: 数据集无缺失值
2. **特征缩放**: 仅在训练集上进行StandardScaler标准化避免数据泄露
3. **不平衡处理**: 使用SMOTE算法对训练集进行过采样平衡正负样本比例
## 数据泄露风险防范
本项目严格遵循以下防泄露措施:
1. **时间切分**: 按照时间顺序划分训练集和测试集
2. **特征缩放**: 仅在训练集上计算缩放参数,然后应用到测试集
3. **采样处理**: 仅在训练集上进行SMOTE过采样
4. **特征工程**: 确保所有特征都是交易发生时可获得的信息
## 引用
如果使用此数据集,请引用:
> Dal Pozzolo, A., Caelen, O., Le Borgne, Y. A., Waterschoot, S., & Bontempi, G. (2015). Learned lessons in credit card fraud detection from a practitioner perspective. Expert systems with applications, 41(10), 4915-4928.