tencent_ocr/.history/README_20250115143209.md
2025-01-15 16:01:18 +08:00

107 lines
2.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 腾讯手写识别接口转接
1. 输入图片的BASE64返回识别结果
2. 使用JSON POST传输返回JSON符合restful风格
3. 入参:
- 图片的BASE64string
- Scene场景默认是null可选only_hwstring
- apikey: 测试期间设置为固定值1234567890string
4. 出参:
- 识别结果string
- 成功与否boolean
6. 使用腾讯通用手写体识别OCR SDK进行图像识别 使用go语言gin框架开发
7. 流程:
- 应用接收到POST数据以后校验数据的合法性json格式、base64格式等
- 调用腾讯通用手写体识别OCR SDK进行图像识别
- 再调用google gemini的api进行组织语言去除可能识别的错误。使用如下prompt
```
你是一个专业的助手负责纠正OCR识别结果中的文本。只需要输出识别结果不需要输出任何解释。
```
- 返回识别结果。
8. google gemini的api key"your key"
9. tencentSecretId = "your id",tencentSecretKey = "your secret"
10. key存储在.env文件中使用dotenv库进行加载。
11. 增加rate功能批改作文
```
项目结构
```
tencenthw/
├── go.mod
├── go.sum
├── cmd/
│ └── server/
│ └── main.go
└── pkg/
├── config/
│ └── config.go
└── handler/
└── ocr.go
└── rate.go
```
# OCR Image Processing Service
这是一个集成了OCR识别、图片存储和文本处理功能的服务。支持多图片上传自动OCR识别并可以智能组织识别出的文本。
## 功能特点
- 支持多图片上传最多5张
- 自动OCR文字识别
- 智能文本整理(多图片场景)
- 图片云存储
- 支持多种图片格式
## API 接口说明
### 1. 多图片上传接口
**接口地址**: `/upload`
**请求方法**: POST
**Content-Type**: multipart/form-data
**请求参数**:
- `files`: 图片文件数组支持1-5张图片
**支持的图片格式**:
- JPEG/JPG
- PNG
- GIF
- BMP
- TIFF
- WEBP
**文件大小限制**: 每个文件最大10MB
**请求示例**:
```bash
curl -X POST \
'http://your-domain/upload' \
-H 'Content-Type: multipart/form-data' \
-F 'files=@image1.jpg' \
-F 'files=@image2.jpg'
```
**响应格式**:
```json
{
"image_urls": [
"https://your-domain/image1.jpg",
"https://your-domain/image2.jpg"
],
"text": "整理后的文本内容",
"success": true
}
```
### 2. OCR识别接口
**接口地址**: `/ocr`
**请求方法**: POST
**Content-Type**: application/json
**请求参数**:
```json