पायथन में डेटा एक्सप्लोरेशन को आसान बनाने वाले तरीके: शुरुआती लोगों के लिए टिप्स और ट्रिक्स

डेटा साइंटिस्ट के लिए, डेटा दुनिया है और इसकी खोज करना अंतर्दृष्टि प्रदान कर सकता है और इसे बेहतर ढंग से समझने में मदद कर सकता है। डेटा अन्वेषण किसी भी डेटा विशिष्ट समस्या में एक महत्वपूर्ण चरण है और यह भी एक कौशल है जो प्रत्येक डेटा वैज्ञानिक के पास होना चाहिए।

पायथन में डेटा एक्सप्लोरेशन को आसान बनाने वाले तरीके: शुरुआती लोगों के लिए टिप्स और ट्रिक्स
पायथन में डेटा एक्सप्लोरेशन को आसान बनाने वाले तरीके: शुरुआती लोगों के लिए टिप्स और ट्रिक्स



यह डेटा साइंटिस्ट की क्षमता और जिज्ञासा को प्रदर्शित करता है जो इसे निष्पादित करता है। कहा जाता है कि ऐसे कई तरीके हैं जिनसे कोई डेटा को समझ सकता है। यह स्पष्ट रूप से किसी के तर्क या अनुभव और पूर्व ज्ञान पर निर्भर करता है। हममें से अधिकांश के पास मौजूदा पुस्तकालय या पद्धति के बारे में जानने की जहमत के बिना कार्यक्षमता को लागू करने के लिए अपने तर्क पर भरोसा करने की प्रवृत्ति है, जो सटीक रूप से समान कार्यक्षमता प्रदान करता है या शायद हम पहले से ही जानते थे और हम भूल गए कि इस तरह के पुस्तकालय का अस्तित्व है। किसी लाइब्रेरी को भूलना संभव है जिसका हम अक्सर उपयोग नहीं करते हैं लेकिन सही समय पर उपयोग किए जाने पर गेम चेंजर हो सकता है।

उन सभी सहायक पुस्तकालयों और विधियों पर नज़र रखना लगभग असंभव है जब तक कि हम उनके साथ नियमित रूप से काम नहीं करते हैं जो हमेशा संभव नहीं हो सकता है क्योंकि हम जिस परियोजना के साथ काम करते हैं वह समय के साथ बदलता रहता है।

तो यहाँ इस लेख में, मैं कुछ सरल और सबसे उपयोगी पैकेज या विधियों को नीचे रखूँगा जो डेटा की खोज और हेरफेर करने की प्रक्रिया को आसान बनाते हैं।

डेटासेट प्राप्त करना
नीचे दिखाए गए सभी उदाहरण हैकथॉन से मशीनहैक में डेटासेट का उपयोग करते हैं। डेटासेट डाउनलोड करने के लिए, आगे बढ़ो और मशीनहाक पर साइन अप करें और हैकथॉन शुरू करें।


डेटा सेट विवरण
जब हम हाथ में एक डेटा सेट प्राप्त करते हैं, तो हम में से अधिकांश डेटासेट के आकार को प्रिंट करके, डेटासेट में कॉलम को प्रिंट करके और इस तरह की सभी चीजों को करने के लिए आगे बढ़ते हैं। हालाँकि पांडा द्वारा एक सरल विधि एक बार में अधिकांश विवरण दिखाती है। DataFrame.describe () विधि निर्दिष्ट डेटासेट का वर्णन करती है।

श्रेणी के रूप में बताएं
हालांकि पांडा डेटाफ्रेम प्रत्येक कॉलम में डेटा के प्रकारों को समझने में सक्षम है, कभी-कभी यह अक्सर खुद को भ्रमित करता है या शायद हम डेटा को एक अलग संदर्भ में देखना चाहते हैं। उदाहरण के लिए, ऊपर के डाटासेट में वर्ष एक संख्यात्मक विशेषता है, हालांकि, एक श्रेणीगत विशेषता के रूप में वर्ष हमें इसका वर्णन करते समय अधिक समझ में आता है।

इस तरह के समय में, हम एक सुविधा के प्रकार को श्रेणी में या संख्यात्मक के रूप में वांछित रूप में परिवर्तित कर सकते हैं। नीचे उदाहरण देखें।

प्रति श्रेणी टिप्पणियों की संख्या
यह एक वर्गीकरण या क्लस्टरिंग समस्या को देखते हुए बहुत उपयोगी जानकारी है। यदि डेटासेट संतुलित है या नहीं, तो यह पहचानने में मदद मिल सकती है कि सुविधाओं को इंजीनियरिंग करने और एक प्रभावी मॉडल बनाने में मदद मिलेगी। Value_counts () विधि एक निर्दिष्ट श्रेणी विशेषता के लिए टिप्पणियों की संख्या की गणना करेगी।

प्रति सुविधा गुम डेटा अंक की संख्या
लापता डेटा बिंदुओं को जानना जानकारी का एक महत्वपूर्ण टुकड़ा है जो यह निर्धारित करने में मदद कर सकता है कि मूल्यों को कैसे लागू किया जाए। नीचे दिखाया गया एक-लाइनर कोड प्रत्येक कॉलम या फीचर में गायब डेटा बिंदुओं की संख्या को आउटपुट करेगा।

एक सामान्य सुविधा या स्तंभ के आधार पर डेटाफ़्रेम मर्ज करना
SQL बैकग्राउंड वाला एक व्यक्ति अलग-अलग तरह के सभी तरीकों से परिचित हो सकता है, जिसमें दो टेबल मर्ज किए जा सकते हैं। रिलेशनल डेटासेट्स को हैंडल करते समय यह सुविधा बेहद उपयोगी है। पांडा में मर्जिंग को सरल विधि से प्राप्त किया जा सकता है जिसे मर्ज () कहा जाता है।

  नीचे दिया गया कोड ब्लॉक दो डेटाफ्रेम को दोनों डेटासेट पर एक सामान्य सुविधा के आधार पर आसानी से मिला देता है।

यहाँ d1 और d2 एक सामान्य फीचर 'आईडी' के साथ 2 अलग-अलग डेटाफ़्रेम हैं। उपरोक्त कमांड दोनों डेटाफ्रेम से मिलान आईडी के आधार पर डी 2 डेटाफ्रेम को डी 1 में विलय कर देगा।

मास्किंग
कभी-कभी डेटा अन्वेषण के दौरान, हमें एक बड़े डेटासेट से डेटा का एक विशिष्ट टुकड़ा निकालने की आवश्यकता हो सकती है। जबकि SQL जैसी डेटाबेस भाषाएं निर्दिष्ट शर्तों के आधार पर क्वेरी करने की अनुमति देती हैं, पांडा डेटाफ्रेम भी एक समान विशेषता के साथ आता है जिसे मास्किंग कहा जाता है।

कोड की निचली पंक्ति केवल उन्हीं टिप्पणियों को चुनती है, जहां ईंधन_Type CNG है

डेटासेट को बदलना
डेटासेट हेरफेर करना जितना आसान हो सकता है, पंडों के लिए धन्यवाद, किसी भी विधि को डेटा में लागू करने की विधि के साथ एक पल में लागू करना संभव है। नीचे उदाहरण देखें। एक समान विधि जिसे ट्रांसफॉर्म कहा जाता है, हमें डेटासेट की विशेषताओं में कई फ़ंक्शन या परिवर्तन लागू करने देता है।

निम्न कोड ब्लॉक कॉलम नाम में सभी मानों के निचले () पद्धति को लागू करने के बाद एक श्रृंखला देता है। मूल डेटाफ़्रेम संरक्षित है।

अवलोकन की एक सीमा में हेरफेर
पंडों डेटाफ़्रेम हमें डेटाफ़्रेम के भीतर डेटा को आसानी से हेरफेर करने की अनुमति देता है। किसी श्रेणी को निर्दिष्ट करके हेरफेर के दायरे को चुना जा सकता है। नीचे उदाहरण देखें।

’NaN’ के साथ 5 वीं पंक्ति तक सभी मान बदल दें

इंटरएक्टिव प्लॉटिंग
जब हमारे पास कुछ टेबल और पाठ होते हैं तो कुछ रंगीन जानकारी जोड़ने का विरोध करना कठिन होता है। प्लॉटिंग लाइब्रेरी की एक किस्म उपलब्ध है, हालांकि, जब हम जाने पर इंटरैक्टिव प्लॉटिंग पर विचार करते हैं, तो यह अपने आप ही पूर्ण हो सकता है। लेकिन जो लोग अपने कार्यों के लिए नोटबुक का उपयोग करते हैं, उनके लिए इंटरैक्टिव भूखंडों को आसानी से पुस्तकालयों के एक जोड़े और iplot नामक एक सरल विधि () के साथ प्राप्त किया जा सकता है।

पूरा डेटासेट प्रोफाइलर
मशीन लर्निंग में पायथन की लोकप्रियता में वृद्धि मुख्य रूप से पुस्तकालय की प्रचुरता और एक विशाल समुदाय से समर्थन के कारण है। लगभग हर आवश्यक फ़ंक्शनलिटी और टूल किट को पैक किया जाता है और इसे केवल एक विधि का नाम देकर निष्पादित किया जा सकता है। जो लोग ipython पुस्तिकाओं का उपयोग करते हैं, उनके लिए pandas_profiling एकल-पुण्य नामक एक पुस्तकालय आपके लिए अधिकांश डेटा अन्वेषण कार्य करता है। जैसा कि नाम से पता चलता है कि लाइब्रेरी किसी भी डेटाफ़्रेम को प्रोफाइल करती है और डेटासेट पर संपूर्ण HTML रिपोर्ट तैयार करती है जिसमें डेटासेट और इसकी विशेषताओं पर बहुत सारी जानकारी शामिल होती है।

ये कुछ उपयोगी लाइब्रेरी और तरीके हैं जो डेटा साइंटिस्ट के काम को आसान बनाते हैं।

0 Comments: