tencent_ocr/.history/README_20250115143209.md

# 腾讯手写识别接口转接

1. 输入图片的BASE64，返回识别结果

2. 使用JSON POST传输，返回JSON，符合restful风格
3. 入参：
    - 图片的BASE64，string
    - Scene：场景，默认是null，可选only_hw，string
    - apikey: 测试期间，设置为固定值：1234567890，string
4. 出参：
    - 识别结果，string
    - 成功与否，boolean

6. 使用腾讯通用手写体识别OCR SDK进行图像识别， 使用go语言，gin框架开发；
7. 流程：
    - 应用接收到POST数据以后，校验数据的合法性（json格式、base64格式等）；
    - 调用腾讯通用手写体识别OCR SDK进行图像识别；
    - 再调用google gemini的api进行组织语言，去除可能识别的错误。使用如下prompt：
    ```
    你是一个专业的助手，负责纠正OCR识别结果中的文本。只需要输出识别结果，不需要输出任何解释。
    ```
    - 返回识别结果。

8. google gemini的api key："your key"
9.  tencentSecretId = "your id",tencentSecretKey = "your secret"

10. key存储在.env文件中，使用dotenv库进行加载。
11. 增加rate功能，批改作文
```
项目结构
```
tencenthw/
├── go.mod
├── go.sum
├── cmd/
│   └── server/
│       └── main.go
└── pkg/
    ├── config/
    │   └── config.go
    └── handler/
        └── ocr.go
        └── rate.go
```

# OCR Image Processing Service

这是一个集成了OCR识别、图片存储和文本处理功能的服务。支持多图片上传，自动OCR识别，并可以智能组织识别出的文本。

## 功能特点

- 支持多图片上传（最多5张）
- 自动OCR文字识别
- 智能文本整理（多图片场景）
- 图片云存储
- 支持多种图片格式

## API 接口说明

### 1. 多图片上传接口

**接口地址**: `/upload`
**请求方法**: POST
**Content-Type**: multipart/form-data

**请求参数**:
- `files`: 图片文件数组（支持1-5张图片）

**支持的图片格式**:
- JPEG/JPG
- PNG
- GIF
- BMP
- TIFF
- WEBP

**文件大小限制**: 每个文件最大10MB

**请求示例**:

```bash
curl -X POST \
'http://your-domain/upload' \
-H 'Content-Type: multipart/form-data' \
-F 'files=@image1.jpg' \
-F 'files=@image2.jpg'
```
**响应格式**:
```json
{
"image_urls": [
"https://your-domain/image1.jpg",
"https://your-domain/image2.jpg"
],
"text": "整理后的文本内容",
"success": true
}
```
### 2. OCR识别接口

**接口地址**: `/ocr`
**请求方法**: POST
**Content-Type**: application/json

**请求参数**:
```json