Wyodrębnij wyróżniony tekst z plików PDF za pomocą Aspose.PDF dla .NET

Wstęp

Podczas pracy z plikami PDF wyodrębnianie wyróżnionego tekstu może być niezbędne do analizy danych, przeglądu treści lub organizowania notatek. Jeśli używasz Aspose.PDF dla .NET, masz szczęście. Ten samouczek zawiera jasne instrukcje krok po kroku, jak skutecznie wyodrębnić wyróżniony tekst z dokumentu PDF.

Wymagania wstępne

Zanim zaczniesz, upewnij się, że masz następujące rzeczy:

  • Aspose.PDF dla biblioteki .NET: Pobierz bibliotekę ze stronystrona wydania.
  • Środowisko programistyczne: Środowisko pracy, takie jak Visual Studio.
  • Podstawowa znajomość języka C#: Znajomość języka C# i programowania obiektowego jest konieczna.
  • Licencja Aspose: Chociaż możesz zacząć od bezpłatnego okresu próbnego,licencja tymczasowa lub pełną licencję odTutaj zapewni nieograniczony dostęp.

Importuj niezbędne przestrzenie nazw

Zacznij od zaimportowania wymaganych przestrzeni nazw do swojego projektu C#:

using Aspose.Pdf.Text;
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;

Te przestrzenie nazw zapewniają dostęp do klas i metod niezbędnych do obsługi dokumentów PDF i adnotacji.

Krok 1: Skonfiguruj katalog swojego projektu

Podaj katalog, w którym znajduje się Twój plik PDF:

// Ścieżka do katalogu dokumentów.
string dataDir = "YOUR DOCUMENT DIRECTORY";

Pamiętaj, aby zastąpić ścieżkę rzeczywistym katalogiem pliku PDF.

Krok 2: Załaduj dokument PDF

Załaduj dokument PDF za pomocą następującego kodu:

Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");

Sprawdź, czy określony plik istnieje w podanym katalogu.

Krok 3: Dostęp do adnotacji na stronie

Aby uzyskać dostęp do adnotacji, przejrzyj adnotacje na wybranej stronie (w tym przypadku pierwszej stronie):

foreach (Annotation annotation in doc.Pages[1].Annotations)
{
    if (annotation is TextMarkupAnnotation)
    {
        TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;

Ten kod filtrujeTextMarkupAnnotation typy, które reprezentują najważniejsze informacje.

Krok 4: Wyodrębnij wyróżniony tekst

Teraz wyodrębnij i wyświetl tekst z wyróżnionych adnotacji:

        TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();
        foreach (TextFragment tf in collection)
        {
            Console.WriteLine(tf.Text);
        }
    }
}

Pobiera wszystkie zaznaczone fragmenty tekstu powiązane z wyróżnieniem i wyświetla je na konsoli.

Wniosek

Wyodrębnianie wyróżnionego tekstu z pliku PDF za pomocą Aspose.PDF dla .NET jest proste i może znacznie usprawnić proces obsługi dokumentów. Postępując zgodnie z powyższymi krokami, możesz sprawnie zbierać wyróżniony tekst do różnych zastosowań, takich jak przygotowywanie raportów lub analiza danych.

Najczęściej zadawane pytania

Czy mogę wyodrębnić inne typy adnotacji?

Tak, wystarczy dostosowaćif warunek obejmujący różne typy adnotacji, takie jakTextAnnotation LubStampAnnotation.

Jak mogę wyodrębnić zaznaczony tekst ze wszystkich stron pliku PDF?

Możesz przeglądać wszystkie strony za pomocą:

for (int i = 1; i <= doc.Pages.Count; i++)
{
    foreach (Annotation annotation in doc.Pages[i].Annotations) { ... }
}

Czy do korzystania z Aspose.PDF dla platformy .NET potrzebna jest licencja?

Dostępna jest bezpłatna wersja próbna, ale warto rozważyćlicencja tymczasowa lub pełną licencję zapewniającą pełen dostęp.

Czy mogę zapisać wyodrębniony tekst do pliku?

Oczywiście! Możesz zmodyfikować kod, aby zapisać wyodrębniony tekst do pliku tekstowego.

Czy Aspose.PDF obsługuje inne platformy?

Tak, Aspose.PDF obsługuje również Javę i inne platformy, zapewniając podobną funkcjonalność.