# 阿里云OCR配置指南 ## 📋 概述 数据提取与转换器现在支持使用阿里云AI大模型进行图片文字识别,相比传统OCR具有更高的准确率和更好的中文支持。 ## 🔑 获取阿里云AccessKey ### 1. 注册阿里云账号 - 访问: https://www.aliyun.com - 注册并完成实名认证 ### 2. 开通OCR服务 - 登录阿里云控制台 - 搜索"OCR"或访问: https://www.aliyun.com/product/ocr - 开通"通用文字识别"服务 ### 3. 获取AccessKey 1. 进入控制台 → 鼠标悬停头像 → AccessKey管理 2. 创建AccessKey(或使用现有Key) 3. 记录以下信息: - AccessKey ID - AccessKey Secret ## ⚙️ 配置环境变量 在`.env`文件中添加阿里云配置: ```env # 阿里云OCR配置 ALIYUN_ACCESS_KEY_ID=您的AccessKey ID ALIYUN_ACCESS_KEY_SECRET=您的AccessKey Secret ALIYUN_OCR_ENDPOINT=ocr-api.cn-hangzhou.aliyuncs.com ``` ## 💰 费用说明 ### 免费额度 - 新用户通常有免费调用额度 - 具体额度请查看阿里云OCR产品页面 ### 计费方式 - 按调用次数计费 - 具体价格请参考阿里云官方定价 ## 🎯 功能对比 | 功能 | 传统OCR (Tesseract) | AI大模型OCR (阿里云) | |------|-------------------|---------------------| | **安装复杂度** | 中等(需安装软件) | 简单(仅需配置Key) | | **识别准确率** | 一般 | 非常高 | | **中文支持** | 良好 | 优秀 | | **复杂图片** | 较差 | 优秀 | | **费用** | 免费 | 按调用次数收费 | | **处理速度** | 快速 | 中等(网络依赖) | ## 🔧 故障排除 ### 常见问题 **1. "阿里云AccessKey未配置"** - 检查.env文件中是否已配置ALIYUN_ACCESS_KEY_ID和ALIYUN_ACCESS_KEY_SECRET - 确保AccessKey正确无误 **2. "权限不足"** - 确认已开通OCR服务 - 检查AccessKey是否有OCR服务权限 **3. "网络连接失败"** - 检查网络连接 - 确认防火墙未阻止请求 **4. "额度不足"** - 检查阿里云账户余额 - 确认免费额度是否已用完 ### 测试配置 使用以下命令测试阿里云OCR配置: ```bash cd d:\python\AI\data-extractor-converter uv run python -c "from utils.aliyun_ocr import check_aliyun_config; print(check_aliyun_config())" ``` ## 🚀 使用说明 ### 在应用中使用 1. 访问应用 → 选择"🖼️ 图片OCR"功能 2. 选择"AI大模型OCR (阿里云)"模式 3. 上传图片文件 4. 点击"识别文字"或导出按钮 ### 支持的图片格式 - JPG/JPEG - PNG - GIF - BMP ### 识别类型 - **通用文字识别** - 普通图片中的文字 - **表格识别** - 表格数据提取 - **高级识别** - 复杂场景文字识别 ## 💡 最佳实践 ### 图片优化建议 1. **清晰度**: 确保图片清晰,文字可读 2. **分辨率**: 建议300dpi以上 3. **背景**: 尽量使用纯色背景 4. **角度**: 保持文字水平 ### 成本控制 1. **批量处理**: 尽量批量处理图片 2. **图片预处理**: 先裁剪和优化图片 3. **监控使用**: 定期查看阿里云使用量 ## 📚 相关资源 - [阿里云OCR文档](https://help.aliyun.com/product/30419.html) - [AccessKey管理](https://ram.console.aliyun.com/manage/ak) - [OCR产品定价](https://www.aliyun.com/price/product#/ocr/detail) ## ⚠️ 注意事项 1. **安全性**: 不要将AccessKey提交到版本控制系统 2. **费用**: 注意监控使用量,避免意外费用 3. **网络**: AI OCR需要稳定的网络连接 4. **备份**: 重要数据建议使用传统OCR作为备份方案