國立交通大學

#請益 #新手 #python的一些入門問題

2019年9月21日 20:36
這是我第一次學程式語言的課 第一堂課老師出了作業 應該是很簡單的題目 但是我真的弄的非常久 而且還是一知半解 所以上來問一下高手們 這份作業有3萬筆樣本 15個變數 其中有6個是連續變數 9個類別變數 Identify categorical and continuous variables. 我用看的看的出來哪個是類別哪個是連續變數 但是沒有辦法寫出來.... 有一題是畫連續變數的 pairwise scatter plots 這邊我想問一下pairwise scatter plots 我之前學統計有印象是一個專有名詞 還是我記錯了 pairwise 是一個對一個 scatter plots 是散佈圖 合起來有名詞嗎? 最後是要畫一個heat map for the correlations among 所有變數 變數裡面有類別也有連續的 可以直接不做處理跑嗎? 今天花了一整天弄這份作業 最後剩下這三題搞不懂 請大家幫幫忙.... 謝謝
愛心
21
.回應 21
熱門回應
雖然可能幫不上忙 但我只想說,不愧是四大 第一堂等於其他校學過兩個學期的程度
共 21 則回應
雖然可能幫不上忙 但我只想說,不愧是四大 第一堂等於其他校學過兩個學期的程度
國立虎尾科技大學
好一個入門問題 看來我學的還太淺R ಠ_ಠ
onehot encoding ? 對於非連續變數 類別型的做
categorical就是字串類的feature pairwise這題沒懂 heatmap直接call matplot
明新科技大學
根本英文問題XD
國立交通大學
學弟你是修哪個系的課啊?資工? 盡量還是先stackoverflow,不會再查中文或問同學吧!加油!有耐心一定很ok
我覺得挺好的啊,善用任何你能得到答案的管道,stackoverflow是一個選項,同學也只是一個選項,有一天dcard版一堆勇於解答者的時候,dcard就是台版的stackoverflow 問題1: 你可能要附一部分資料,別人才有辦法回答你的問題,資料預處理首先要知道資料長什麼樣 問題2: arr需要是numpy.array
問題3: heatmap到底要不要涵蓋全部種類資料,可能要問助教比較清楚 如何實作heatmap可以 google 關鍵字 matplotlib heatmap
原PO - 國立交通大學
謝謝各路高手的留言相助 https://archive.ics.uci.edu/ml/datasets/Adult 這是老師給我們做作業的資料 修這堂課可能是我越級打怪了 但老師有說沒有寫過程式的也可以修沒關係 這堂課也可以說是開給我這種都不會的同學 不過這堂課算是應用的課 期末要交一個報告 一開始光是我從uci下載資料下來 副檔名是.data就花了我一整個早上跟半個下午的時間 我不會在jupeter跑這個資料 查資料查了很久 我把它轉成了csv 在找語法 最後終於可以讀取 不過花的時間之久讓我懷疑人生 (但還是要說有時候很簡單的東西 卡住了轉不過來就是轉不過來) 一開始我試著用輸入路徑的方式去開 失敗了 (我還是不知道路徑要輸哪個形式的 我打的時候是用jupeter在瀏覽器上開啟那個程式的路徑 不過應該行不通) 再來找到方式是直接輸檔名就可以了 (明明很簡單的...不過我一直在想如果遇到同個檔名的程式怎麼辦呢? 然後可能中間有試過輸檔名 但一點技術上的失誤 出現error 所以我就隔很久再用這個方式才成功 我猜它抓檔案是抓同個資料夾內的檔案? 所以不會抓到同個檔名的檔案) 另外因為這個作業是上傳ipynb檔案 我在coding的時候用的是我電腦裡面的csv 如果我上傳之後 助教在看檔案的時候讀的到那個csv嗎? 另外我把data檔轉成csv之後 發現原本的data檔沒有變數的名稱 導致我用jupeter讀取這個csv時 原本第一排的資料直接跑上去變成變數的名稱 之後解決的方法就是 再弄另一個csv 先手動+變數名稱上去 再給juperty讀取 不過總感覺這方法笨到不行... 之後就開始寫後面的題目 一邊寫一邊上網找語法 我發現我有找到stackoverflow 也從裡面幫助到很多 不過上面的題目我還是沒找到orz 所以才上來問問看大家 也有很多熱心的高手同學相助QAQ 先謝謝大家的回覆 大家說的方法我會試試看的
卡內基美隆大學
第一個問題 你把資料讀成dataframe後,使用df.dtypes就可以知道了 第二個問題 用seaborn.pairplot 第三個如果題目是說所有,那就是所有了 不過你可以再跟TA或同學確認
檔名是甚麼.data? adult.data 嗎? 有沒有完整的路徑? 因為我只找到 adult.data ,只有 3M 多,才花了不到三秒下載 在想說我是不是有甚麼誤會? 但這 adult.data 裡面的確有 3 萬多筆 樣本和 15 個變數 然後 6 個連續型變數是你們老師的說法嗎? 通常會說數值型和類別型,翻成連續型好怪 然後你也不需要特別把他轉成 csv,他裡面就是以 csv 的格式來編排的,你想用 excel 開,只要把後面的副檔名改成 csv 就好了,讀檔時也可直接用 csv 的方式來讀,無視他的副檔名 然後你們老師有要求要用哪個語言來寫嗎? 如果能用 python 的話根本沒有任何困難可言 舉例來說,要看是數值型還是類別型變數,你可以用 pandas 的 .dtypes ,pandas 在將資料讀進來時,如果沒有指定,會自動判別資料型態,所以你用 dtypes 就可以自動顯示類別和數值型變數,如下圖。 而如果想手動判斷,就看一下資料裡面有沒有出現字元就好了,也不難
然後是 pairwise scatter plots ,這邊我是使用 seaborn 來畫的,如下圖:
最後是 heat map 或 correlation 應該只能拿來找數值型,類別型的資料可能就要略過吧? 你要自己去問清楚,如果類別型資料也要畫 heat map 可能要去想要怎麼數值化它,或是你們老師有教其它方法,以下是我針對數值型資料畫的 correlation heat map
我覺得這些題目真的很基本,就要你讀檔畫圖而已 可能你非資工系,以前又沒有處理過資料,有些觀念不是很懂,所以才弄比較久 真心建議,如果你這樣都覺得很難不懂的話,希望可以從更基本的課程開始,不然可能事倍功半
這堂課直接屌打我們的進度超過2個學年呢。😓
原PO - 國立交通大學
B9 火侯! 謝謝妳 我完成了 !!!!! 之後就等老師公布解答了 感謝大家QQQQ
原PO - 國立交通大學
B10 謝謝你的回答 我的確是一點基礎也沒有哈哈 老師不是說6個連續型變數 題目是說要我們分辨哪個為類別變數 以及 連續型變數 不過是用英文打的 我會花時間把基本的觀念補足的 謝謝大家的回覆了!
卡內基美隆大學
B12 不客氣 看了你在b8的留言,我只想跟你說不用灰心,這些痛苦都是學程式的必經過程,coding多了自然就熟能生巧 然後上網查問題的時候盡量用英文輸入關鍵字,你會發現很多東西網路上都有解答
原PO - 國立交通大學
B14 做完發現卡的地方很奇妙哈哈 我想這就是coding會遇到的事情吧! 謝 謝妳給我這麼多建議 B15 嘿嘿嘿 不是唷! 但妳蠻會猜的!
這則回應已被刪除
2019年9月24日 13:43
已經刪除的內容就像 Dcard 一樣,錯過是無法再相見的!
這樣是第一堂課?我如果不是智商嚴重不足就是我只學了5秒鐘...
我們學的差太多了吧._.
中華大學 資訊工程學系
乾 真的四大就是不一樣 一來直接畫圖
李宏毅的ML作業2
馬上回應搶第 22 樓...