Extrahujte zvýrazněný text z PDF pomocí Aspose.PDF pro .NET

Zavedení

Při práci se soubory PDF může být extrahování zvýrazněného textu zásadní pro analýzu dat, kontrolu obsahu nebo organizaci poznámek. Pokud používáte Aspose.PDF pro .NET, máte štěstí. Tento tutoriál poskytuje jasné a podrobné pokyny, jak efektivně extrahovat zvýrazněný text z dokumentu PDF.

Předpoklady

Než začnete, ujistěte se, že máte na svém místě následující:

  • Aspose.PDF for .NET Library: Stáhněte si knihovnu zstránka vydání.
  • Vývojové prostředí: Pracovní prostředí jako Visual Studio.
  • Základní znalost C#: Nutná je znalost C# a objektově orientovaného programování.
  • Aspose License: I když můžete začít s bezplatnou zkušební verzí, adočasná licence nebo plnou licenci odzde poskytne neomezený přístup.

Importujte potřebné jmenné prostory

Začněte importováním požadovaných jmenných prostorů do vašeho projektu C#:

using Aspose.Pdf.Text;
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;

Tyto jmenné prostory poskytují přístup ke třídám a metodám potřebným pro práci s dokumenty PDF a anotacemi.

Krok 1: Nastavte adresář projektu

Zadejte adresář, kde se nachází váš soubor PDF:

// Cesta k adresáři dokumentů.
string dataDir = "YOUR DOCUMENT DIRECTORY";

Nezapomeňte nahradit cestu skutečným adresářem vašeho souboru PDF.

Krok 2: Načtěte dokument PDF

Načtěte dokument PDF s následujícím kódem:

Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");

Ujistěte se, že zadaný soubor v daném adresáři existuje.

Krok 3: Přístup k anotacím na stránce

Chcete-li získat přístup k anotacím, procházejte anotacemi na požadované stránce (v tomto případě na první stránce):

foreach (Annotation annotation in doc.Pages[1].Annotations)
{
    if (annotation is TextMarkupAnnotation)
    {
        TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;

Tento kód filtruje proTextMarkupAnnotation typy, které představují zvýraznění.

Krok 4: Extrahujte zvýrazněný text

Nyní extrahujte a zobrazte text ze zvýrazněných anotací:

        TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();
        foreach (TextFragment tf in collection)
        {
            Console.WriteLine(tf.Text);
        }
    }
}

Tím se načte všechny označené části textu spojené se zvýrazněním a vytisknou se do konzoly.

Závěr

Extrahování zvýrazněného textu z PDF pomocí Aspose.PDF for .NET je přímočaré a může výrazně zlepšit váš proces manipulace s dokumenty. Podle výše uvedených kroků můžete efektivně shromažďovat zvýrazněný text pro různé aplikace, jako je příprava sestav nebo analýza dat.

FAQ

Mohu extrahovat jiné typy anotací?

Ano, stačí upravitif podmínkou pro zahrnutí různých typů anotací, napřTextAnnotation neboStampAnnotation.

Jak mohu extrahovat zvýrazněný text ze všech stránek PDF?

Všechny stránky můžete procházet pomocí:

for (int i = 1; i <= doc.Pages.Count; i++)
{
    foreach (Annotation annotation in doc.Pages[i].Annotations) { ... }
}

Je pro Aspose.PDF pro .NET nutná licence?

K dispozici je bezplatná zkušební verze, ale zvažte adočasná licence nebo plnou licenci pro úplný přístup.

Mohu extrahovaný text uložit do souboru?

Absolutně! Kód můžete upravit tak, aby zapisoval extrahovaný text do textového souboru.

Podporuje Aspose.PDF další platformy?

Ano, Aspose.PDF také podporuje Javu a další platformy, které poskytují podobné funkce.