國立宜蘭大學 資訊工程學系

#新手 python爬蟲 ptt"內文"

2019年10月28日 18:22
最近練習ptt爬蟲遇到了個問題 以ptt資安版為練習目標 網址:https://www.ptt.cc/bbs/NetSecurity/M.1571503091.A.5EC.html 然後是用bs4做解析 下面這邊是我把作者、標題、發文時間抓下來
但假如只想爬取"內文"的話(下圖紅色圈起來的地方) 該怎麼做呢? 因為內文沒有自己的標籤
我查過正規表示法和lxml 但是也都是需要標籤才能抓取
愛心
20
.回應 8
共 8 則回應
把class=article-metaline的抓出來變串列arr arr[3]就是了
lxml可以用xpath。
國立雲林科技大學
右鍵xpath
原PO - 國立宜蘭大學 資訊工程學系
B1 他不是在 class=article-metaline 裡面喔! 我有試一遍 arr[2]是時間 arr[3] 超出list範圍
B2 B3 感謝你們的提點 我試出來了 大感謝!! 我煩惱了好幾天呢!! 附上code給其他需要的人
致理科技大學 資訊管理系
太棒了!! 趕緊先收藏,明天來練習一波!
明新科技大學 資訊工程系
不是已經有很多人寫好非官方api了?
國立清華大學 電機工程學系
B6 可能想練習ㄅ
明新科技大學 資訊工程系
B7 也是🤔
馬上回應搶第 9 樓...