Articles of वेब स्क्रैपिंग

QWebPage का उपयोग करके कई यूआरएल स्क्रैप करें

मैं एक पृष्ठ को प्रस्तुत करने के लिए क्यूटी के क्यू वेब पेज का उपयोग कर रहा हूं जो जावास्क्रिप्ट का उपयोग अपनी सामग्री को गतिशील रूप से अपडेट करने के लिए करता है – ऐसा पुस्तकालय जो सिर्फ पेज का एक स्थिर संस्करण (जैसे urllib2) को काम नहीं करेगा I मेरी समस्या यह है, […]

मैं स्कैपी के साथ एक वेबसाइट से सभी सादा पाठ कैसे प्राप्त करूं?

एचटीएमएल प्रस्तुत किए जाने के बाद, मैं एक वेबसाइट से सभी पाठ को दिखाना चाहूंगा मैं स्कैपी फ्रेमवर्क के साथ पायथन में काम कर रहा हूं xpath('//body//text()') मैं इसे प्राप्त करने में सक्षम हूं, लेकिन HTML टैग्स के साथ, और मैं केवल पाठ चाहता हूं। इसके लिए कोई समाधान? धन्यवाद !

एंड्रॉइड: एक गतिविधि संदर्भ के बाहर WebView का उपयोग करना

मैं वेब स्क्रैपिंग को पृष्ठभूमि इन्टेंट सेवा के माध्यम से हासिल करने की कोशिश कर रहा हूं जो समय-समय पर उपयोगकर्ताओं के फोन पर प्रदर्शित होने के बिना किसी वेबसाइट को स्क्रैप करता है। चूंकि मुझे लोड पेज पर कुछ जावास्क्रिप्ट कॉल करना पड़ता है इसलिए मैं किसी भी एचटीटीपीगेट आदि का उपयोग नहीं कर […]

हेडलेस ब्राउज़र वाला एंड्रॉइड वेब स्क्रैपिंग

मैंने एक लाइब्रेरी शोध पर एक दिन बिताया है जिसका प्रयोग निम्न को पूरा करने के लिए किया जा सकता है: एक दृश्य के परिणामस्वरूप बिना किसी वेबपृष्ठ की पूरी सामग्री पृष्ठभूमि के समान पुनर्प्राप्त करें। उदाहरण के लिए आरंभिक HTML लोड होने के बाद, कुछ अतिरिक्त परिणाम डेटा लोड करने के लिए एजीएक्स अनुरोध […]

एडब्ल्यूएस मशीन पर अजगर में सेलेनियम से फ़ायरफ़ॉक्स को कॉल करने में असमर्थ

मैं जावास्क्रिप्ट के साथ कुछ गतिशीलता पृष्ठों को स्क्रैप करने के लिए अजगर से सेलेनियम का उपयोग करने की कोशिश कर रहा हूं। हालांकि, मैं पपी पेज (http://pypi.pyththon.org/pypi/selenium) पर सेलेनियम के निर्देशों का पालन करने के बाद फ़ायरफ़ॉक्स नहीं बुला सकता। मैं AWS उबुंटू 12.04 पर फ़ायरफ़ॉक्स स्थापित कर रहा हूँ। मुझे मिल गया त्रुटि […]

कैसे एक वेबसाइट पर प्रोग्रामिंग के लिए प्रोग्राम को प्रवेश करें?

मुझे ऐसी वेबसाइट से कुछ जानकारी चाहिए जो मेरी नहीं है, इस जानकारी को पाने के लिए मुझे जानकारी इकट्ठा करने के लिए वेबसाइट पर लॉग इन करना होगा, यह एक HTML फॉर्म के माध्यम से होता है सी # में मैं यह प्रमाणित स्क्रीन कैप्चर कैसे कर सकता हूं? अतिरिक्त जानकारी: कुकी आधारित प्रमाणीकरण […]

नोड। जेएस के साथ रीयल टाइम में वेब पेज स्क्रैप करें

नोड। जेएस का उपयोग करते हुए वेबसाइट सामग्री को परिमार्जन करना अच्छा था। मैं कुछ बहुत, बहुत तेजी से निर्माण करना चाहता हूं जो कयाक डॉट कॉम की शैली में खोजों को निष्पादित कर सकता है, जहां एक क्वेरी कई अलग-अलग साइटों पर भेजी जाती है, परिणाम स्क्रैप हो जाते हैं, और क्लाइंट के रूप […]

स्क्रैपिंग Google वित्त (सुंदरसूप)

मैं Google वित्त को परिमार्जन करने की कोशिश कर रहा हूं और क्रोम में वेबपेज निरीक्षक के आधार पर "संबंधित स्टॉक" तालिका प्राप्त करता है, जिसमें आईडी "सीसी-टेबल" और वर्ग "जीएफ-टेबल" है। (नमूना लिंक: https://www.google.com/finance?q=tsla ) लेकिन जब मैं चलाता हूं। ("टेबल") या फेन्डल ("टेबल") को ढूंढें, यह तालिका ऊपर नहीं आती। मैं जेसनॉन दिखने […]

एक वेबसाइट में गतिशील सामग्री स्क्रैप करना

मुझे इस वेबसाइट, लिंक से समाचारों की घोषणा करने की आवश्यकता है। यह घोषणा गतिशील रूप से उत्पन्न होने वाली लगती है वे स्रोत में दिखाई नहीं देते मैं आमतौर पर मशीनीकरण का उपयोग करता हूं लेकिन मुझे लगता है कि यह काम नहीं करेगा मैं इसके लिए क्या कर सकता हूं? मैं अजगर या […]

एंड्रॉइड में एचटीएमएल वेबपेज को स्क्रैप करने का सबसे तेज़ तरीका क्या है?

मुझे एंड्रॉइड में एक असंरचित वेब पेज से जानकारी निकालने की जरूरत है I मुझे जो जानकारी चाहिए वह तालिका में एम्बेडेड होती है जिसमें आईडी नहीं होती है <table> <tr><td>Description</td><td></td><td>I want this field next to the description cell</td></tr> </table> क्या मुझे इसका उपयोग करना चाहिए पैटर्न मिलान? जानकारी निकालने के लिए BufferedReader का उपयोग […]

दिलचस्प पोस्ट
क्या किसी फ़ंक्शन के बंद होने तक पहुंच प्राप्त करना संभव है? SQL सर्वर में एक डीबीएफ फ़ाइल कैसे आयात करें आसान संभव जावास्क्रिप्ट उलटी गिनती टाइमर? एमवीसी और एमवीवीएम के बीच अंतर क्या है? इंटरफ़ेस बिल्डर में ऑटोलेआउट (बाधाएं) निकालें JTextField में प्रेस दर्ज करें विज़ुअल स्टूडियो कुंजीपटल शॉर्टकट स्वचालित रूप से आवश्यक 'कथन' कथन जोड़ने के लिए हम जावा रेगेक्स के साथ ^ nb ^ n कैसे मेल कर सकते हैं? दृश्य स्टूडियो सी # स्टेटमेंट गिरने मैं एक्सेल VBA में एक सरणी कैसे टुकड़ा कर सकता हूँ? एकाधिक INNER SQL एक्सेस में शामिल हों एक <p> अंदर या बाहर होना चाहिए? एंड्रॉइड वेबव्यू – अवरोधन क्लिक मैं जावा में एक साथ कुंजी प्रेस कैसे संभाल करूँ? फ़ाइलों को स्थानांतरित करने के लिए HTTP और FTP की तुलना करना