外部系统接入开发文档
OcrServer接口文档
OCR SERVER提供的都是同步接口,响应速度取决于输入的文件大小,客户端的传输超时时间不要设置过短。
图片转文字
允许已授权的用户通过此接口更新自己的信息。
- URL:/ocr_to_text
- Method:POST
请求参数(FormData表单)
参数 | 类型 | 约束 |
---|---|---|
file | File | 目前仅仅支持jpg, bmp, png, jpeg, rgb, tif, tiff, gif, pdf这几种类型的文件。其中gif仅仅解析第一帧。 |
请求示例
bash
curl -X POST '127.0.0.1:8000/ocr_to_text' --form "file=@myimg.jpg;type=image/jpg"
响应
- 状态码:200 OK
- 响应示例:JSON形式的数组
json
[{
"page":0 // 只有pdf文件才会返回多page,其他文件一般page只有0
"result":[{ // result也是一个数组,代表此图中不同位置的文本
"boundingBox":[1,2,3,4] // 文本框的坐标(x轴和y轴)
// 如果返回值有个4个坐标(共8个元素)
// 则依次为文本框的左上、右上、右下、左下四个点的坐标
// 如果只返回了2个,则是左上和右下
"text": "大酒店", // 文本解析结果
"score":0.9 // 本次识别的评分,不会超过1.0
}]
}]
图片转Word
允许已授权的用户通过此接口更新自己的信息。
- URL:/ocr_to_doc
- Method:POST
请求参数
参数 | 类型 | 约束 |
---|---|---|
file | File | 目前仅仅支持jpg, bmp, png, jpeg, rgb, tif, tiff, gif, pdf这几种类型的文件。其中gif仅仅解析第一帧。 |
pdf_raw_convert | Boolean | 当且仅当上传文件为pdf时,支持使用此参数。当此参数设置为true时,表示不对pdf进行ocr扫描,而是直接转换成doc(此选项适用于纯文字的pdf)。 |
请求示例
bash
curl -X POST '127.0.0.1:8000/ocr_to_doc' --form "file=@myimg.jpg;type=image/jpg" --output result.doc
响应
- 状态码:200 OK
- 响应示例:返回一个文件流,文件格式是doc,内容是本次解析的结果。