Articles of आरडीडी

कौन सी ऑपरेशन आरडीडी आदेश को सुरक्षित रखता है?

आरडीडी के पास एक सार्थक (भंडारण मॉडल द्वारा लगाए गए कुछ यादृच्छिक आदेशों के विपरीत) आदेश है अगर इसे sortBy() संसाधित किया गया है, जैसा कि इस उत्तर में बताया गया है। अब, कौन से आपरेशन उस आदेश को सुरक्षित रखता है? उदाहरण के लिए, यह गारंटी है कि ( a.sortBy() बाद) a.map(f).zip(a) === a.map(x […]

स्पार्क्स का उपयोग कर hbase से कैसे पढ़ा जाए

नीचे दिए गए कोड को hbase से पढ़ा जाएगा, फिर इसे json संरचना में परिवर्तित करें और स्कीमाआरडीडी में कनवर्ट करें, लेकिन समस्या यह है कि मैं जेएसएएन स्ट्रिंग को स्टोर करने के लिए using List का using List रहा हूं और लगभग 100 जीबी के डेटा के लिए मास्टर जी स्मृति में डेटा के […]

स्पार्क में आरडीडी कैसे स्थानांतरित किया जाए

मेरे पास एक RDD है: 1 2 3 4 5 6 7 8 9 यह एक मैट्रिक्स है अब मैं इस तरह आरडीडी को स्थानांतरित करना चाहता हूं: 1 4 7 2 5 8 3 6 9 मैं यह कैसे कर सकता हूँ?

स्पार्क – रीपार्टिशन () बनाम कॉलेसेस ()

सीखना स्पार्क के अनुसार ध्यान रखें कि आपके डेटा को पुन: विभाजन करना एक काफी महंगा ऑपरेशन है। स्पार्क में पुन: विभाजन का एक अनुकूलित संस्करण है (जिसे कॉलस () कहा जाता है) जो डेटा आंदोलन से बचने की अनुमति देता है, लेकिन केवल अगर आप RDD विभाजन की संख्या कम कर रहे हैं मुझे […]

अपाचे स्पार्क: नक्शा बनाम नक्शाविभाजनों?

RDD के map और map mapPartitions पद्धतियों के बीच क्या अंतर है? और क्या flatMap map या map तरह व्यवहार करता है? धन्यवाद। (संपादित करें) यानी बीच अंतर (या तो अर्थात् या निष्पादन के मामले में) क्या है def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ […]

स्कला बनाम पायथन के लिए स्पार्क प्रदर्शन

मैं स्काला पर पायथन पसंद करता हूं लेकिन, स्पार्क नैतिक रूप से स्काला में लिखा गया है, मुझे स्पष्ट रूप से स्पष्ट कारणों के लिए पायथन संस्करण की तुलना में स्कला में अपने कोड को चलाने की उम्मीद थी। इस धारणा के साथ, मैंने कुछ 1 जीबी डेटा के लिए कुछ बहुत ही आम प्रीप्रोसेसिंग […]

अपाचे स्पार्क वेब यूआई में "स्टेज स्किप" का क्या मतलब है?

मेरे स्पार्क यूआई से छोड़ने का क्या अर्थ है?

HashPartitioner कैसे काम करता है?

मैंने HashPartitioner के दस्तावेज़ीकरण पर पढ़ा। दुर्भाग्य से एपीआई कॉलों को छोड़कर ज्यादा कुछ नहीं समझा गया था। मैं इस धारणा के तहत हूँ कि HashPartitioner विभाजन को चाबियों के हैश के आधार पर वितरित सेट। उदाहरण के लिए यदि मेरा डेटा समान है (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) इसलिए विभाजनकर्ता इसे उसी विभाजन […]

(क्यों) हमें कैश कॉल करने की आवश्यकता है या आरडीडी पर जारी रहना चाहिए

जब एक लचीला वितरित डेटासेट (आरडीडी) एक पाठ फ़ाइल या संग्रह (या किसी अन्य RDD) से बनाई गई है, तो क्या हमें "कैश" या "लगातार" कॉल करने के लिए स्पष्ट रूप से आरडीडी डेटा को स्मृति में संग्रहीत करने की आवश्यकता है? या क्या आरडीडी डाटा को डिस्ट्रीब्यूशन में वितरित तरीके से संग्रहीत किया जाता […]

स्पार्क में डेटाफ्रेम के लिए आरडीड ऑब्जेक्ट कैसे परिवर्तित करें

मैं एक आरडीडी ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row] org.apache.spark.sql.Row org.apache.spark.rdd.RDD[org.apache.spark.sql.Row] ) को एक डाटाफ्रेम org.apache.spark.sql.DataFrame में कैसे रूपांतरित कर सकता / सकती हूं। मैं .rdd का उपयोग करने के लिए एक .rdd । इसे संसाधित करने के बाद मैं इसे डाटाफ्रेम में वापस करना चाहता हूं मैं यह कैसे कर सकता हूँ ?

दिलचस्प पोस्ट
API V3 के साथ प्रति पृष्ठ कई Google मानचित्र कैसे प्रदर्शित करें क्वेरी स्ट्रिंग के लिए JSON को क्रमबद्ध करने के लिए मानकीकृत तरीका है? इन छवियों को एक साथ कैसे रखा जाए? Linq में Enumerable.Zip एक्सटेंशन विधि का क्या उपयोग है? एक्सेस-कंट्रोल-अनुमति-मूल शीर्षलेख को कैसे जोड़ें लाइव इवेंट्स का उपयोग करके jQuery का ड्रैग एंड ड्रॉप "यदि" महंगा है? गतिशील रूप से JavaScript का उपयोग करके शैली-वेबकिट-ट्रांसफॉर्म को सेट कैसे करें? कैसे हल करने के लिए "तर्क 1 my_function () को पारित स्ट्रिंग का एक उदाहरण होना चाहिए, स्ट्रिंग दिया" पहले PHP 7? अर्रे सूची से आइटम निकालें RequireJS / AMD के साथ परिपत्र निर्भरता को कैसे संभालें? सीएसवी में सरणी कन्वर्ट जावा में कितने महत्वपूर्ण अंक फ़्लोट्स और युगल हैं? जावा में क्लिपबोर्ड पर कॉपी करना सूची <टी> गारंटी प्रविष्टि आदेश करता है?