- 添加MDF文件导出功能 - 集成阿里云OCR大模型识别 - 添加百度智能云AI照片评分 - 集成DeepSeek大模型创意文案生成 - 完善文档和配置管理 - 使用uv进行现代化依赖管理 - 添加完整的.gitignore配置
3.4 KiB
3.4 KiB
阿里云OCR配置指南
📋 概述
数据提取与转换器现在支持使用阿里云AI大模型进行图片文字识别,相比传统OCR具有更高的准确率和更好的中文支持。
🔑 获取阿里云AccessKey
1. 注册阿里云账号
- 访问: https://www.aliyun.com
- 注册并完成实名认证
2. 开通OCR服务
- 登录阿里云控制台
- 搜索"OCR"或访问: https://www.aliyun.com/product/ocr
- 开通"通用文字识别"服务
3. 获取AccessKey
- 进入控制台 → 鼠标悬停头像 → AccessKey管理
- 创建AccessKey(或使用现有Key)
- 记录以下信息:
- AccessKey ID
- AccessKey Secret
⚙️ 配置环境变量
在.env文件中添加阿里云配置:
# 阿里云OCR配置
ALIYUN_ACCESS_KEY_ID=您的AccessKey ID
ALIYUN_ACCESS_KEY_SECRET=您的AccessKey Secret
ALIYUN_OCR_ENDPOINT=ocr-api.cn-hangzhou.aliyuncs.com
💰 费用说明
免费额度
- 新用户通常有免费调用额度
- 具体额度请查看阿里云OCR产品页面
计费方式
- 按调用次数计费
- 具体价格请参考阿里云官方定价
🎯 功能对比
| 功能 | 传统OCR (Tesseract) | AI大模型OCR (阿里云) |
|---|---|---|
| 安装复杂度 | 中等(需安装软件) | 简单(仅需配置Key) |
| 识别准确率 | 一般 | 非常高 |
| 中文支持 | 良好 | 优秀 |
| 复杂图片 | 较差 | 优秀 |
| 费用 | 免费 | 按调用次数收费 |
| 处理速度 | 快速 | 中等(网络依赖) |
🔧 故障排除
常见问题
1. "阿里云AccessKey未配置"
- 检查.env文件中是否已配置ALIYUN_ACCESS_KEY_ID和ALIYUN_ACCESS_KEY_SECRET
- 确保AccessKey正确无误
2. "权限不足"
- 确认已开通OCR服务
- 检查AccessKey是否有OCR服务权限
3. "网络连接失败"
- 检查网络连接
- 确认防火墙未阻止请求
4. "额度不足"
- 检查阿里云账户余额
- 确认免费额度是否已用完
测试配置
使用以下命令测试阿里云OCR配置:
cd d:\python\AI\data-extractor-converter
uv run python -c "from utils.aliyun_ocr import check_aliyun_config; print(check_aliyun_config())"
🚀 使用说明
在应用中使用
- 访问应用 → 选择"🖼️ 图片OCR"功能
- 选择"AI大模型OCR (阿里云)"模式
- 上传图片文件
- 点击"识别文字"或导出按钮
支持的图片格式
- JPG/JPEG
- PNG
- GIF
- BMP
识别类型
- 通用文字识别 - 普通图片中的文字
- 表格识别 - 表格数据提取
- 高级识别 - 复杂场景文字识别
💡 最佳实践
图片优化建议
- 清晰度: 确保图片清晰,文字可读
- 分辨率: 建议300dpi以上
- 背景: 尽量使用纯色背景
- 角度: 保持文字水平
成本控制
- 批量处理: 尽量批量处理图片
- 图片预处理: 先裁剪和优化图片
- 监控使用: 定期查看阿里云使用量
📚 相关资源
⚠️ 注意事项
- 安全性: 不要将AccessKey提交到版本控制系统
- 费用: 注意监控使用量,避免意外费用
- 网络: AI OCR需要稳定的网络连接
- 备份: 重要数据建议使用传统OCR作为备份方案