57 lines
2.2 KiB
Markdown
57 lines
2.2 KiB
Markdown
|
|
# 数据来源说明
|
|||
|
|
|
|||
|
|
## 数据集信息
|
|||
|
|
|
|||
|
|
| 项目 | 说明 |
|
|||
|
|
|------|------|
|
|||
|
|
| 数据集名称 | Credit Card Fraud Detection |
|
|||
|
|
| 数据来源 | Kaggle |
|
|||
|
|
| 数据链接 | https://www.kaggle.com/mlg-ulb/creditcardfraud |
|
|||
|
|
| 样本量 | 284,807 条 |
|
|||
|
|
| 特征数 | 30 个(28个V特征、时间、金额) |
|
|||
|
|
| 标签数 | 1 个(Class: 0=正常, 1=欺诈) |
|
|||
|
|
|
|||
|
|
## 数据描述
|
|||
|
|
|
|||
|
|
该数据集包含2013年9月欧洲持卡人通过信用卡进行的交易数据。数据集在两天内发生,其中包含492起欺诈交易。数据集高度不平衡,欺诈交易仅占所有交易的0.172%。
|
|||
|
|
|
|||
|
|
### 特征说明
|
|||
|
|
|
|||
|
|
- **Time**: 交易发生的时间(秒),相对于数据集中第一个交易的时间
|
|||
|
|
- **V1-V28**: 经过PCA转换后的特征,为了保护用户隐私,原始特征已被匿名化处理
|
|||
|
|
- **Amount**: 交易金额
|
|||
|
|
- **Class**: 标签列,0表示正常交易,1表示欺诈交易
|
|||
|
|
|
|||
|
|
## 数据切分策略
|
|||
|
|
|
|||
|
|
本项目采用**时间序列切分**策略,按照交易发生的时间顺序将数据集划分为训练集和测试集:
|
|||
|
|
|
|||
|
|
- **训练集**: 前80%的数据(按时间排序)
|
|||
|
|
- **测试集**: 后20%的数据(按时间排序)
|
|||
|
|
|
|||
|
|
这种切分策略的优势:
|
|||
|
|
1. 符合实际应用场景,模型需要基于历史数据预测未来交易
|
|||
|
|
2. 避免数据泄露,确保测试集的时间晚于训练集
|
|||
|
|
3. 能够评估模型在时间序列上的泛化能力
|
|||
|
|
|
|||
|
|
## 数据预处理
|
|||
|
|
|
|||
|
|
1. **缺失值处理**: 数据集无缺失值
|
|||
|
|
2. **特征缩放**: 仅在训练集上进行StandardScaler标准化,避免数据泄露
|
|||
|
|
3. **不平衡处理**: 使用SMOTE算法对训练集进行过采样,平衡正负样本比例
|
|||
|
|
|
|||
|
|
## 数据泄露风险防范
|
|||
|
|
|
|||
|
|
本项目严格遵循以下防泄露措施:
|
|||
|
|
|
|||
|
|
1. **时间切分**: 按照时间顺序划分训练集和测试集
|
|||
|
|
2. **特征缩放**: 仅在训练集上计算缩放参数,然后应用到测试集
|
|||
|
|
3. **采样处理**: 仅在训练集上进行SMOTE过采样
|
|||
|
|
4. **特征工程**: 确保所有特征都是交易发生时可获得的信息
|
|||
|
|
|
|||
|
|
## 引用
|
|||
|
|
|
|||
|
|
如果使用此数据集,请引用:
|
|||
|
|
|
|||
|
|
> Dal Pozzolo, A., Caelen, O., Le Borgne, Y. A., Waterschoot, S., & Bontempi, G. (2015). Learned lessons in credit card fraud detection from a practitioner perspective. Expert systems with applications, 41(10), 4915-4928.
|