此页面由 Cloud Translation API 翻译。

文档理解

Gemini API 支持 PDF 输入，包括长文档（最多 1, 000 页）。 Gemini 模型使用原生视觉功能处理 PDF，因此能够理解文档中的文本和图片内容。借助原生 PDF 视觉支持，Gemini 模型能够：

分析文档中的图表、图表和表格
将信息提取为结构化输出格式
回答有关文档中视觉内容和文本内容的问题
总结文档
转写文档内容（例如转写为 HTML），保留布局和格式，以便在下游应用中使用

本教程演示了使用 Gemini API 处理 PDF 文档的一些可能方式。

技术详情

Gemini 最多支持 1,000 个文档页面。文档页面必须采用以下文本数据 MIME 类型之一：

PDF - application/pdf
JavaScript - application/x-javascript、text/javascript
Python - application/x-python、text/x-python
TXT - text/plain
HTML - text/html
CSS - text/css
Markdown - text/md
CSV - text/csv
XML - text/xml
RTF - text/rtf

每页文档相当于 258 个词元。

除了模型的上下文窗口之外，文档中的像素数量没有具体限制，但较大的页面会缩小到最大分辨率 3072x3072，同时保留其原始宽高比，较小的页面会放大到 768x768 像素。除了带宽之外，较小尺寸的网页不会降低费用，较高分辨率的网页也不会提升性能。

为了达到最佳效果，请注意以下事项：

请先将页面旋转到正确的方向，然后再上传。
避免网页模糊不清。
如果使用单个页面，请将文本提示放在该页面后面。

后续步骤

如需了解详情，请参阅以下资源：

文件提示策略：Gemini API 支持使用文本、图片、音频和视频数据进行提示，也称为多模态提示。
系统指令：借助系统指令，您可以根据自己的特定需求和使用情形来控制模型的行为。

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2025-06-02。