文档理解

Gemini API 支持 PDF 输入,包括长文档(最多 1, 000 页)。 Gemini 模型使用原生视觉功能处理 PDF,因此能够理解文档中的文本和图片内容。借助原生 PDF 视觉支持,Gemini 模型能够:

  • 分析文档中的图表、图表和表格
  • 将信息提取为结构化输出格式
  • 回答有关文档中视觉内容和文本内容的问题
  • 总结文档
  • 转写文档内容(例如转写为 HTML),保留布局和格式,以便在下游应用中使用

本教程演示了使用 Gemini API 处理 PDF 文档的一些可能方式。

技术详情

Gemini 最多支持 1,000 个文档页面。文档页面必须采用以下文本数据 MIME 类型之一:

  • PDF - application/pdf
  • JavaScript - application/x-javascripttext/javascript
  • Python - application/x-pythontext/x-python
  • TXT - text/plain
  • HTML - text/html
  • CSS - text/css
  • Markdown - text/md
  • CSV - text/csv
  • XML - text/xml
  • RTF - text/rtf

每页文档相当于 258 个词元。

除了模型的上下文窗口之外,文档中的像素数量没有具体限制,但较大的页面会缩小到最大分辨率 3072x3072,同时保留其原始宽高比,较小的页面会放大到 768x768 像素。除了带宽之外,较小尺寸的网页不会降低费用,较高分辨率的网页也不会提升性能。

为了达到最佳效果,请注意以下事项:

  • 请先将页面旋转到正确的方向,然后再上传。
  • 避免网页模糊不清。
  • 如果使用单个页面,请将文本提示放在该页面后面。

后续步骤

如需了解详情,请参阅以下资源:

  • 文件提示策略:Gemini API 支持使用文本、图片、音频和视频数据进行提示,也称为多模态提示。
  • 系统指令:借助系统指令,您可以根据自己的特定需求和使用情形来控制模型的行为。