tencent_ocr/.history/README_20250115143018.md
2025-01-15 16:01:18 +08:00

2.2 KiB
Raw Blame History

腾讯手写识别接口转接

  1. 输入图片的BASE64返回识别结果

  2. 使用JSON POST传输返回JSON符合restful风格

  3. 入参:

    • 图片的BASE64string
    • Scene场景默认是null可选only_hwstring
    • apikey: 测试期间设置为固定值1234567890string
  4. 出参:

    • 识别结果string
    • 成功与否boolean
  5. 使用腾讯通用手写体识别OCR SDK进行图像识别 使用go语言gin框架开发

  6. 流程:

    • 应用接收到POST数据以后校验数据的合法性json格式、base64格式等
    • 调用腾讯通用手写体识别OCR SDK进行图像识别
    • 再调用google gemini的api进行组织语言去除可能识别的错误。使用如下prompt
    你是一个专业的助手负责纠正OCR识别结果中的文本。只需要输出识别结果不需要输出任何解释。
    
    • 返回识别结果。
  7. google gemini的api key"your key"

  8. tencentSecretId = "your id",tencentSecretKey = "your secret"

  9. key存储在.env文件中使用dotenv库进行加载。

  10. 增加rate功能批改作文

项目结构

tencenthw/ ├── go.mod ├── go.sum ├── cmd/ │ └── server/ │ └── main.go └── pkg/ ├── config/ │ └── config.go └── handler/ └── ocr.go └── rate.go


# OCR Image Processing Service

这是一个集成了OCR识别、图片存储和文本处理功能的服务。支持多图片上传自动OCR识别并可以智能组织识别出的文本。

## 功能特点

- 支持多图片上传最多5张
- 自动OCR文字识别
- 智能文本整理(多图片场景)
- 图片云存储
- 支持多种图片格式

## API 接口说明

### 1. 多图片上传接口

**接口地址**: `/upload`
**请求方法**: POST
**Content-Type**: multipart/form-data

**请求参数**:
- `files`: 图片文件数组支持1-5张图片

**支持的图片格式**:
- JPEG/JPG
- PNG
- GIF
- BMP
- TIFF
- WEBP

**文件大小限制**: 每个文件最大10MB

**请求示例**:
ash
curl -X POST \
'http://your-domain/upload' \
-H 'Content-Type: multipart/form-data' \
-F 'files=@image1.jpg' \
-F 'files=@image2.jpg'