# 腾讯手写识别接口转接 1. 输入图片的BASE64,返回识别结果 2. 使用JSON POST传输,返回JSON,符合restful风格 3. 入参: - 图片的BASE64,string - Scene:场景,默认是null,可选only_hw,string - apikey: 测试期间,设置为固定值:1234567890,string 4. 出参: - 识别结果,string - 成功与否,boolean 6. 使用腾讯通用手写体识别OCR SDK进行图像识别, 使用go语言,gin框架开发; 7. 流程: - 应用接收到POST数据以后,校验数据的合法性(json格式、base64格式等); - 调用腾讯通用手写体识别OCR SDK进行图像识别; - 再调用google gemini的api进行组织语言,去除可能识别的错误。使用如下prompt: ``` 你是一个专业的助手,负责纠正OCR识别结果中的文本。只需要输出识别结果,不需要输出任何解释。 ``` - 返回识别结果。 8. google gemini的api key:"your key" 9. tencentSecretId = "your id",tencentSecretKey = "your secret" 10. key存储在.env文件中,使用dotenv库进行加载。 11. 增加rate功能,批改作文 ``` 项目结构 ``` tencenthw/ ├── go.mod ├── go.sum ├── cmd/ │ └── server/ │ └── main.go └── pkg/ ├── config/ │ └── config.go └── handler/ └── ocr.go └── rate.go ``` # OCR Image Processing Service 这是一个集成了OCR识别、图片存储和文本处理功能的服务。支持多图片上传,自动OCR识别,并可以智能组织识别出的文本。 ## 功能特点 - 支持多图片上传(最多5张) - 自动OCR文字识别 - 智能文本整理(多图片场景) - 图片云存储 - 支持多种图片格式 ## API 接口说明 ### 1. 多图片上传接口 **接口地址**: `/upload` **请求方法**: POST **Content-Type**: multipart/form-data **请求参数**: - `files`: 图片文件数组(支持1-5张图片) **支持的图片格式**: - JPEG/JPG - PNG - GIF - BMP - TIFF - WEBP **文件大小限制**: 每个文件最大10MB **请求示例**: ```bash curl -X POST \ 'http://your-domain/upload' \ -H 'Content-Type: multipart/form-data' \ -F 'files=@image1.jpg' \ -F 'files=@image2.jpg' ``` **响应格式**: json { "image_urls": [ "https://your-domain/image1.jpg", "https://your-domain/image2.jpg" ], "text": "整理后的文本内容", "success": true }