.NET के लिए Aspose.PDF का उपयोग करके PDF से हाइलाइट किए गए टेक्स्ट को निकालें
परिचय
पीडीएफ फाइलों के साथ काम करते समय, डेटा विश्लेषण, सामग्री समीक्षा या नोट्स को व्यवस्थित करने के लिए हाइलाइट किए गए टेक्स्ट को निकालना आवश्यक हो सकता है। यदि आप .NET के लिए Aspose.PDF का उपयोग कर रहे हैं, तो आप भाग्यशाली हैं। यह ट्यूटोरियल पीडीएफ दस्तावेज़ से हाइलाइट किए गए टेक्स्ट को कुशलतापूर्वक निकालने के बारे में स्पष्ट, चरण-दर-चरण निर्देश प्रदान करता है।
आवश्यक शर्तें
आरंभ करने से पहले, सुनिश्चित करें कि आपके पास निम्नलिखित चीज़ें मौजूद हैं:
- .NET लाइब्रेरी के लिए Aspose.PDF: लाइब्रेरी को यहाँ से डाउनलोड करेंरिलीज़ पेज.
- विकास वातावरण: विजुअल स्टूडियो जैसा कार्य वातावरण।
- C# का बुनियादी ज्ञान: C# और ऑब्जेक्ट-ओरिएंटेड प्रोग्रामिंग से परिचित होना आवश्यक है।
- एस्पोज लाइसेंस: जबकि आप एक नि: शुल्क परीक्षण के साथ शुरू कर सकते हैं,अस्थायी लाइसेंस या पूर्ण लाइसेंसयहाँ अप्रतिबंधित पहुंच प्रदान करेगा।
आवश्यक नामस्थान आयात करें
अपने C# प्रोजेक्ट में आवश्यक नामस्थानों को आयात करके प्रारंभ करें:
using Aspose.Pdf.Text;
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
ये नामस्थान पीडीएफ दस्तावेजों और एनोटेशन को संभालने के लिए आवश्यक कक्षाओं और विधियों तक पहुंच प्रदान करते हैं।
चरण 1: अपनी प्रोजेक्ट निर्देशिका सेट करें
वह निर्देशिका निर्दिष्ट करें जहां आपकी PDF फ़ाइल स्थित है:
// दस्तावेज़ निर्देशिका का पथ.
string dataDir = "YOUR DOCUMENT DIRECTORY";
सुनिश्चित करें कि पथ को आपकी PDF फ़ाइल की वास्तविक निर्देशिका से प्रतिस्थापित किया गया है।
चरण 2: पीडीएफ दस्तावेज़ लोड करें
निम्नलिखित कोड के साथ पीडीएफ दस्तावेज़ लोड करें:
Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");
सुनिश्चित करें कि निर्दिष्ट फ़ाइल दी गई निर्देशिका में मौजूद है।
चरण 3: पृष्ठ पर एनोटेशन तक पहुंचें
एनोटेशन तक पहुंचने के लिए, अपने इच्छित पृष्ठ (इस मामले में, प्रथम पृष्ठ) पर एनोटेशन के माध्यम से लूप करें:
foreach (Annotation annotation in doc.Pages[1].Annotations)
{
if (annotation is TextMarkupAnnotation)
{
TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;
यह कोड निम्न के लिए फ़िल्टर करता हैTextMarkupAnnotation
प्रकार, जो हाइलाइट्स का प्रतिनिधित्व करते हैं.
चरण 4: हाइलाइट किए गए टेक्स्ट को निकालें
अब, हाइलाइट किए गए एनोटेशन से पाठ निकालें और प्रदर्शित करें:
TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();
foreach (TextFragment tf in collection)
{
Console.WriteLine(tf.Text);
}
}
}
यह हाइलाइट से संबद्ध सभी चिह्नित पाठ अंशों को पुनः प्राप्त करता है और उन्हें कंसोल पर प्रिंट करता है।
निष्कर्ष
.NET के लिए Aspose.PDF का उपयोग करके PDF से हाइलाइट किए गए टेक्स्ट को निकालना सरल है और यह आपके दस्तावेज़ हैंडलिंग प्रक्रिया को महत्वपूर्ण रूप से बढ़ा सकता है। ऊपर बताए गए चरणों का पालन करके, आप रिपोर्ट तैयार करने या डेटा विश्लेषण जैसे विभिन्न अनुप्रयोगों के लिए हाइलाइट किए गए टेक्स्ट को कुशलतापूर्वक एकत्र कर सकते हैं।
अक्सर पूछे जाने वाले प्रश्न
क्या मैं अन्य प्रकार के एनोटेशन निकाल सकता हूँ?
हाँ, बस समायोजित करेंif
विभिन्न एनोटेशन प्रकारों को शामिल करने की शर्त जैसेTextAnnotation
याStampAnnotation
.
मैं सभी पीडीएफ पृष्ठों से हाइलाइट किए गए टेक्स्ट को कैसे निकाल सकता हूं?
आप निम्न का उपयोग करके सभी पृष्ठों पर जा सकते हैं:
for (int i = 1; i <= doc.Pages.Count; i++)
{
foreach (Annotation annotation in doc.Pages[i].Annotations) { ... }
}
क्या .NET के लिए Aspose.PDF हेतु लाइसेंस आवश्यक है?
निःशुल्क परीक्षण उपलब्ध है, लेकिन एक पर विचार करेंअस्थायी लाइसेंस या सम्पूर्ण पहुँच के लिए पूर्ण लाइसेंस।
क्या मैं निकाले गए पाठ को फ़ाइल में सहेज सकता हूँ?
बिल्कुल! आप निकाले गए पाठ को टेक्स्ट फ़ाइल में लिखने के लिए कोड को संशोधित कर सकते हैं।
क्या Aspose.PDF अन्य प्लेटफॉर्म का समर्थन करता है?
हां, Aspose.PDF जावा और अन्य प्लेटफार्मों का भी समर्थन करता है, और समान कार्यक्षमता प्रदान करता है।