使用 Aspose.PDF for .NET 从 PDF 中提取突出显示的文本

介绍

处理 PDF 文件时，提取突出显示的文本对于数据分析、内容审查或整理笔记至关重要。如果您使用的是 Aspose.PDF for .NET，那么您很幸运。本教程提供了清晰的分步说明，说明如何有效地从 PDF 文档中提取突出显示的文本。

先决条件

在开始之前，请确保已准备好以下事项：

Aspose.Pdf for .NET Library：从以下网址下载该库发布页面.
开发环境：像 Visual Studio 这样的工作环境。
C# 基础知识：必须熟悉 C# 和面向对象编程。
Aspose 许可证：虽然你可以从免费试用开始，临时执照或完整许可这里将提供不受限制的访问。

导入必要的命名空间

首先在 C# 项目中导入所需的命名空间：

using Aspose.Pdf.Text;
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;

这些命名空间提供处理 PDF 文档和注释所需的类和方法的访问。

步骤 1：设置项目目录

指定 PDF 文件所在的目录：

//文档目录的路径。
string dataDir = "YOUR DOCUMENT DIRECTORY";

确保用 PDF 文件的实际目录替换路径。

第 2 步：加载 PDF 文档

使用以下代码加载PDF文档：

Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");

确保指定的文件存在于给定的目录中。

步骤 3：访问页面上的注释

要访问注释，请循环遍历所需页面（在本例中为第一页）上的注释：

foreach (Annotation annotation in doc.Pages[1].Annotations)
{
    if (annotation is TextMarkupAnnotation)
    {
        TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;

此代码过滤TextMarkupAnnotation类型，代表亮点。

步骤 4：提取突出显示的文本

现在，从突出显示的注释中提取并显示文本：

        TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();
        foreach (TextFragment tf in collection)
        {
            Console.WriteLine(tf.Text);
        }
    }
}

这将检索与突出显示相关的所有标记文本片段并将其打印到控制台。

结论

使用 Aspose.PDF for .NET 从 PDF 中提取突出显示的文本非常简单，并且可以显著增强您的文档处理流程。通过遵循上述步骤，您可以高效地收集突出显示的文本以用于各种应用程序，例如报告准备或数据分析。

常见问题解答

我可以提取其他类型的注释吗？

是的，只需调整if条件包括不同的注释类型，如TextAnnotation或者StampAnnotation.

如何从所有 PDF 页面中提取突出显示的文本？

您可以使用以下方法循环遍历所有页面：

for (int i = 1; i <= doc.Pages.Count; i++)
{
    foreach (Annotation annotation in doc.Pages[i].Annotations) { ... }
}

Aspose.PDF for .NET 需要许可证吗？

可以免费试用，但请考虑临时执照或获取完整许可证以获得完全访问权限。

我可以将提取的文本保存到文件中吗？

当然可以！您可以修改代码，将提取的文本写入文本文件。

Aspose.PDF 是否支持其他平台？

是的，Aspose.PDF 也支持 Java 和其他平台，提供类似的功能。

使用 Aspose.PDF for .NET 添加墨迹注释从 PDF 文档中提取注释