2.3 KiB
2.3 KiB
腾讯手写识别接口转接
-
输入图片的BASE64,返回识别结果
-
使用JSON POST传输,返回JSON,符合restful风格
-
入参:
- 图片的BASE64,string
- Scene:场景,默认是null,可选only_hw,string
- apikey: 测试期间,设置为固定值:1234567890,string
-
出参:
- 识别结果,string
- 成功与否,boolean
-
使用腾讯通用手写体识别OCR SDK进行图像识别, 使用go语言,gin框架开发;
-
流程:
- 应用接收到POST数据以后,校验数据的合法性(json格式、base64格式等);
- 调用腾讯通用手写体识别OCR SDK进行图像识别;
- 再调用google gemini的api进行组织语言,去除可能识别的错误。使用如下prompt:
你是一个专业的助手,负责纠正OCR识别结果中的文本。只需要输出识别结果,不需要输出任何解释。- 返回识别结果。
-
google gemini的api key:"your key"
-
tencentSecretId = "your id",tencentSecretKey = "your secret"
-
key存储在.env文件中,使用dotenv库进行加载。
-
增加rate功能,批改作文
项目结构
tencenthw/ ├── go.mod ├── go.sum ├── cmd/ │ └── server/ │ └── main.go └── pkg/ ├── config/ │ └── config.go └── handler/ └── ocr.go └── rate.go
# OCR Image Processing Service
这是一个集成了OCR识别、图片存储和文本处理功能的服务。支持多图片上传,自动OCR识别,并可以智能组织识别出的文本。
## 功能特点
- 支持多图片上传(最多5张)
- 自动OCR文字识别
- 智能文本整理(多图片场景)
- 图片云存储
- 支持多种图片格式
## API 接口说明
### 1. 多图片上传接口
**接口地址**: `/upload`
**请求方法**: POST
**Content-Type**: multipart/form-data
**请求参数**:
- `files`: 图片文件数组(支持1-5张图片)
**支持的图片格式**:
- JPEG/JPG
- PNG
- GIF
- BMP
- TIFF
- WEBP
**文件大小限制**: 每个文件最大10MB
**请求示例**:
```bash
curl -X POST \
'http://your-domain/upload' \
-H 'Content-Type: multipart/form-data' \
-F 'files=@image1.jpg' \
-F 'files=@image2.jpg'
响应格式: