00:08एक note करनी है कि यह दो index के column आय हुए है
00:10और इस तरह का problem हमने पहले भी phase किया है
00:13तो चलिए सबसे पहले तो हम इसको remove करते हैं
00:14एक column को
00:15column को remove करना
00:17तो last lecture में हमने सीखा था कि अगर यह column का नाम है
00:19तो simple मैं यह जो हमारे पास यह जो data है ना
00:22इसके ओपर call कर सकता हूँ dot drop
00:25और इस dot drop को यह column का नाम दे सकता हूँ ठीक है
00:29और इसके बाद मैंने यह बताना है कि यह basically column है
00:33तो column की description के लिए हम axis is equal to one बताते हैं
00:38और of course अगर इसी के अंदर ही मैंने changes को रखना है
00:41तो मैं in place is equal to true declare करूंगा
00:45अच्छा अब मैं इसको execute करता हूँ
00:47और अगर अब हम इसको देखें हैं हमारे data set को
00:51तो इसके अंदर हमें एक ही column नजर आना चाहिए
00:54जो कि basically index को column है
00:56अब हम अपनी discussion को data manipulation के वाले से थोड़ा सा आगे ले जाते हैं
01:02normally जो data आपको natural order में मिलता है
01:05उसमें ये chances हैं कि वो already उसके अंदर कुछ pattern exist करते हों
01:11और वो pattern basically जब आप उसको further analyze करते हैं
01:15machine learning model use करके
01:17तो उसके लिए ये problem हो सकता है
01:20कि वो आपके result के अंदर error introduce कर दे
01:24तो इस error से बचने के लिए एक बहुत ही important काम है
01:28वो होता है कि shuffling आप अपने data को shuffling करते हैं
01:31जिस तरह आप ताश की गड़ी को shuffle करते हैं
01:32जो आपके वो card होते हैं जो ताश होती है
01:34जो cards होते हैं प्ले cards
01:36उसको खेलने के लिए अगर आपने देखा हो
01:38कसीनो के अंदर वो उसको shuffle करते हैं
01:40ताश के आपके पास एक uniform distribution of samples हो
01:43अब जो मैं samples की बात करता हूँ
01:45तो basically ये function जिसके जरीए आप shuffle करते हैं
01:48उसको sample कहते हैं
01:50अब sample आपने function call किया
01:53और इसको आपने देना है एक variable
01:55और उसका नाम है frack
01:58अब frack basically percentage of data shuffling है
02:03क्योंके आपके पास जब data आता है ना
02:05तो वो millions of rows हो सकती है
02:07आपने ज़र इस चीज़ को note करना है
02:09ये तो five rows है ना
02:10millions of rows हो सकती है
02:12और to shuffle million वो can be very costly
02:15आपके PC के लिए जो है बहुत ही costly हो सकता है
02:18तो उस case के अंदर जो frack है
02:21वो basically percentage of data आप declare करते हैं
02:24मिसाल के तोर पे अगर आप कहते हैं
02:25frack is equal to one
02:26तो इसका मतलब है hundred percent
02:29यानि के सारा data को आप shuffle कर दें
02:31और अगर मैं कहता हूँ zero
02:33तो आप कहते हैं basically zero percent data
02:36कोई भी data shuffle ना हो
02:37अगर आप कहते हैं point five
02:39तो इसका मतलब है fifty percent
02:41यानि के आधा data आपने shuffle करना है
02:43आधा आपने वैसे रखना है
02:45तो चलिए सबसे पहले तो हम इस तरह करते हैं
02:47कि fifty percent से चलते हैं
02:49अब जरा आपने गोर करना है
02:52कि सिर्फ तीन रोज shuffle हुई है
02:54बाज चेंज नहीं हुई
02:56तो total rows कितनी थी?
02:57six
02:58तो six के लिए सिर्फ तीन रोज जब shuffle हुई
03:00तो इसका मतलब है कि fifty percent data shuffle हुई
03:03इसी तरह अगर आप इसी को
03:05कह दें कि नहीं
03:06आप फ्रेक को पुरा one रखें
03:08तो इसका मतलब है आप कह दें कि
03:09entire data set को आप shuffle कर दें
03:12तो अगर आप देखें
03:13तो three उपर है फिर zero है फिर one है four है
03:15तो कोई तर्तीब नहीं है क्योंके
03:17rows याद रखने हैं अपने column नहीं
03:20rows shuffle हो गई है
03:22उपर नीचे हो गई है
03:23तो indexing जो है जो है उपर नीचे हो गई है
03:25इस चीज़ को आपने अपने जहने में रखना है
03:27column की तर्तीब में कोई चाहिए नहीं आई
03:29rows जो है वो शफल हो गई है
03:31अब यहाँ पे एक बहुत ही important चीज़
03:36मैं आप से discuss करना चाहता हूँ
03:38वो यह कि अक्सर आवकात ऐसे होता है
03:41और आप
03:43पूरे का पूरा data set शफल कर देते हैं
03:47तो some time it becomes very costly
03:49computer के लिए के 1 million rows को करे
03:52तो good practice यह है
03:54कि आप एक small data set
03:56let's say 20% या let's say 30% data set
03:59मिसाल के दोर पे यहाँ पे आप कहा दें 25%
04:01तो आप पहले 25% of the data set को शफल करें
04:04उसके उपर अपना small experimental experiment run करें
04:08और then move toward a bigger data shift
04:11अब जैसा कि आपने देखा कि
04:14हमने index की तरतीब को change किया
04:17हम इसको इसके original order के उपर भी ला सकते हैं
04:20sampling से आप जो है
04:22change करते हैं distribution को
04:25और अगर आप dot reset
04:27r e s e t underscore index का method कॉल करते हैं
04:32और reset index को आप कहते हैं
04:34कि drop is equal to true
04:36comma in place place is equal to true
04:41ठीक है
04:43और अगर आप इसको execute करें
04:45और इस case के अंदर
04:46original जो order है
04:48वो आपका retain हो जाना चाहिए
04:50जैसा कि आप देख सकते हैं
04:51आपने note की एक चीज
04:54कि ये देखे है
04:540,1,2,3,4,5
04:55आपने sampling से
04:58sample से order change किया
05:00301452
05:01reset index true
05:03in place मैंने क्यों किया
05:05क्योंकि मैं original value के अंदर retain करना चाहता हूँ
05:07drop क्यों true किया
05:09उसकी reason ये है कि जब आप ये करते हैं बगएर drop के
05:13मैं वैसे आपको दिखा देता हूँ
05:15जब आप बगएर drop के करते हैं तो एक
05:17extra index का column जो है वो add हो जाता है
05:19इस unordered index के साथ
05:22तो उसको मैंने drop किया
05:23basically मैं इसको execute करता हूँ
05:25अब अगर मैं इसको run करता हूँ तो आप देखिए ये दो आगे हुए तो इन दो को remove करने के लिए basically हमने drop true किया था ताकि ये जो extra index का है ये ना है हमारे पास
05:35इसको execute करता हूँ अब दोबार execute करते हैं as you see now हमारे पास जो है ये basically already खड़ा हुआ है और गया नहीं है remove नहीं हुआ
05:44तो इस column को अब हम क्योंके अब हमने two times किया ना तो इसको simple drop से इसको drop कर सकते हैं तो drop के लिए मैं उठाता हूँ इसका नाम ठीकर मैं कहता हूँ या index को आपने drop करना है और ये है एक column x is equal to one execute किया आप देखिए ये चला गया लेकिन क्योंके मैंने in place is equal to true नहीं कहा तो अग
06:14तो आप इसको execute करते हैं और now we will see the result run किया अब हमारा जो data है वो original position में आ गया है तो दो तरीके मैंने आपको बताए है column को remove करने के एक तो मैंने आपको reset index के जरीए से बताया है कि index को reset करते हैं अगर index reset करने से एक extra column introduce हो गया हुआ है तो आपने make sure करना है कि then उसको आप drop से remove
06:44आपको एक existing function जो है वो apply करना पड़ जाए किसी value के उपर मिसाल के तोर पे आप चाहते हैं कि मिसाल के तोर पे यह memory है ना यह kb में है अगर इस kb memory को मैं thousand से कर दो divide तो यह mb memory बन जाएगी ना यह बन जाएगी ना mb memory तो इसको kb को mb में convert करते हैं अब mb में convert करने के लि
07:14एक तो यह है कि मैं directly इस column को पकड़ के divided by thousand कर दूँ जो कि basically एक option है however हम इसको एक function से करते है तो सबसे पहले तो मैं phone csv उठाता हूं phone underscore csv phone underscore csv ठीक है और उसको देता हूं column जिसके अंदर changes हमने retain करानी है ठीक है अच्छा अब इसको कहता हूं कि यार तुम इस तरह करो कि इ
07:44हम इसके उपर कोई function भी apply कर सकते हैं मकसद यह है कि मैं आपको function की applicability बताऊं function apply करने के लिए आप dot apply का method कॉल करते हैं dot apply
07:54और dot apply के साथ आप let's say मैं lambda function डालने लगा हूं lambda हमने lambda function आपने पढ़ा हो अगर नहीं पढ़ा तो lambda function is anonymous function basically इसका कोई नाम नहीं होता है you just tell him the lambda keyword वो operation perform करता है
08:10इस case में मैं कहा हूँ यार एक x variable के अंदर value store करनी है कह रहा है अचा उस x variable को पर operation क्या करना है मैं कहा हूँ यार उस x variable को thousand से डिवाइड करना है thousand से ठीक है तो value x की apply कर देगा kb को thousand से डिवाइड कर देगा और वो value इसको assign कर देगा
08:27तो basically यह function apply की है वो simple value थी जो पहले मैंने आपको बताई है तो मैं इसको execute करता हूँ अब मैं जरा आपको दिखाता हूँ के हमारी value के साथ क्या हुआ
08:35मैं इसको run करता हूँ again खलती की मैंने execute करते हैं अब जरा आप गोर करें कि यह जो kb उपर लिखा हुआ है यह divided by thousand हो गया हुआ है तो अब यह mb's के अंदर memory आपको show हो रही है ठीक है तो इस चीज़ का आपने धियान करना है और by the way अगर यही काम आप यहां से करते ना divided by thousand
09:05function it can be anything function can be more versatile more powerful more bigger thing to apply ठीक है तो यहां पे एक final word के साथ मैं इसको close करने लगा हूँ कि देगे error जो है ना वो programming सीखने का हिस्सा है तो अगर error से आप परिशान होते हैं तो प्लीज ज़रा इसका आपने किसी तरीके से
09:25इलाज निकालना है क्योंकि you never have to worry about error documentation google stack overflow और question आपके लिए सारी help available है और learning trust me anything जो worthwhile learning है ना कोई भी ऐसी चीज़ जो के सीखने के काबल है वो असानी से नहीं आती यह मेरी बाई ना कोई भी ऐसी चीज़ जो के सीखने के काबल है वो असानी से नहीं आती यह मेरी बाई या�
09:55anything that is worthwhile learning will never come easy if anything that come easy is not worthwhile learning जड़ा इस चीज़ का ध्यान करने आपने तो see you in the next