2311020116_CreditCardFraudD.../data/README.md
2311020116lhh b6aef53ef0 feat: 初始化信用卡欺诈检测系统项目
- 添加项目基础结构,包括数据模型、训练、推理和Agent模块
- 实现数据处理、特征工程和模型训练功能
- 添加测试用例和文档说明
- 配置项目依赖和环境变量
2026-01-15 16:20:26 +08:00

2.2 KiB
Raw Permalink Blame History

数据来源说明

数据集信息

项目 说明
数据集名称 Credit Card Fraud Detection
数据来源 Kaggle
数据链接 https://www.kaggle.com/mlg-ulb/creditcardfraud
样本量 284,807 条
特征数 30 个28个V特征、时间、金额
标签数 1 个Class: 0=正常, 1=欺诈)

数据描述

该数据集包含2013年9月欧洲持卡人通过信用卡进行的交易数据。数据集在两天内发生其中包含492起欺诈交易。数据集高度不平衡欺诈交易仅占所有交易的0.172%。

特征说明

  • Time: 交易发生的时间(秒),相对于数据集中第一个交易的时间
  • V1-V28: 经过PCA转换后的特征为了保护用户隐私原始特征已被匿名化处理
  • Amount: 交易金额
  • Class: 标签列0表示正常交易1表示欺诈交易

数据切分策略

本项目采用时间序列切分策略,按照交易发生的时间顺序将数据集划分为训练集和测试集:

  • 训练集: 前80%的数据(按时间排序)
  • 测试集: 后20%的数据(按时间排序)

这种切分策略的优势:

  1. 符合实际应用场景,模型需要基于历史数据预测未来交易
  2. 避免数据泄露,确保测试集的时间晚于训练集
  3. 能够评估模型在时间序列上的泛化能力

数据预处理

  1. 缺失值处理: 数据集无缺失值
  2. 特征缩放: 仅在训练集上进行StandardScaler标准化避免数据泄露
  3. 不平衡处理: 使用SMOTE算法对训练集进行过采样平衡正负样本比例

数据泄露风险防范

本项目严格遵循以下防泄露措施:

  1. 时间切分: 按照时间顺序划分训练集和测试集
  2. 特征缩放: 仅在训练集上计算缩放参数,然后应用到测试集
  3. 采样处理: 仅在训练集上进行SMOTE过采样
  4. 特征工程: 确保所有特征都是交易发生时可获得的信息

引用

如果使用此数据集,请引用:

Dal Pozzolo, A., Caelen, O., Le Borgne, Y. A., Waterschoot, S., & Bontempi, G. (2015). Learned lessons in credit card fraud detection from a practitioner perspective. Expert systems with applications, 41(10), 4915-4928.