用python編制網絡爬蟲
【課程編號】:NX32855
用python編制網絡爬蟲
【課件下載】:點擊下載課程綱要Word版
【所屬類別】:職業技能培訓
【培訓課時】:2天
【課程關鍵字】:python培訓,編制網絡爬蟲培訓
我要預訂
咨詢電話:027-5111 9925 , 027-5111 9926手機:18971071887郵箱:Service@mingketang.com
課程簡介
您需要在各種網站上抓取數據嗎?例如金融、證券、期貨、各種行業網站,甚至于您想在網上抓取網絡小說的內容嗎?或者新聞以及評論?
這就是網絡爬蟲的功能!
您可能想,抓取網頁數據,做爬蟲工具,這是專業人員的事情啊,我干嘛要做?
But,您的公司可能就沒有外包爬蟲軟件的預算,另外各種網站復雜多變,花了錢請被人做的爬蟲軟件,網站一改版,就不能用了。
求人不如求己!擁有編制爬蟲的能力,對您的幫助多多,也是職場能力和hard skill的重大提升!
課程適用對象
金融、互聯網、市場營銷等相應職能人員等。
課程教學方式
講師講授+互動+軟件現場操作
課程大綱
1.Python簡介
(1)Python安裝
(2)python包安裝及介紹
(3)pycharm工具的安裝
(4)選擇python做爬蟲的理由
2.Python程序基礎
(1)變量
(2)過程與函數
(3)對象
案例:編程即對象,python處理excel文件對象
3.Python基本語句
(1)輸入輸出語句
(2)條件判斷語句
If、else、elseif、嵌套代碼塊等。
(3)循環語句
包括for、while以及跳出循環的基礎技巧。
4.Python數據結構
(1)列表
(2)元祖
(3)字典
(4)集合
5.python代碼的調試過程
(1)運行程序
(2)單步調試
(3)添加斷點
(4)添加監視
6.EXCEL和txt格式文本的讀寫
Python可以讀取各種常見的數據格式,但是工作中最常見的還是對于EXCEL和TXT文本的讀取,python有專門針對EXCEL和TXT文本的工作包,可以方便地讀寫,對EXCEL也可以做各種格式:
(1)Xlsx文件的讀寫
(2)txt文本的讀寫
7. 爬蟲原理和網頁構造
(1)爬蟲原理
介紹網絡連接和爬蟲的原理。
(2)網頁構造
介紹網頁的一般結構和html的基本構造。
(3)html元素和標簽
(4)CSS簡介
8.爬蟲三大庫
Python提供了requests、beautifulsoup和Lxml三種常用的爬取網絡信息的方法,其中以beautifulsoup最為常用:
(1)Requests庫的使用
(2)Beautifulsoup庫的使用
(3)各種爬取實例
包括數字、表格、文本、圖片、文件下載等。
案例分析:爬取金融期貨網站表格數據
9.正則表達式
正則表達式是加速爬蟲抓取的強大技術,也是爬蟲技術的重要基礎:
(1)正則表達式常用符號
(2)Re模塊及其方法
案例分析:抓取《斗破蒼穹》全文小說
10.表單交互和模擬登錄
表單交互是在爬取數據時由程序自動實現和網頁的交互,模擬登錄是在爬取數據過程中用技術手段實現自動登錄:
(1)Selenium包的調用
(2)網頁翻頁
(3)表格輸入和查詢
紀老師
本科畢業于大連理工大學計算機系,碩士和博士均畢業于復旦大學。長期從事數據分析、python、powerbi、VBA、人工智能、大數據、數字化轉型、市場調查、EXCEL、信息檢索與收集、Access、PPT、SPSS等方面的培訓工作,為上海交通大學EDP中心、上海交通大學海外教育中心、上海交通大學繼續教育學院、中智、時代光華(北京)、肯耐珂薩(上海)、益策、華嗣、卓華等國內知名培訓機構開設過多次內訓和公開課課程。立邦涂料長期合作講師,華晨寶馬長期合作講師(數據統計分析方向、三年一簽)。數據分析方面年授課量在110天左右。
紀賀元相關工作經歷如下:
時間工作單位職位工作內容
1993-1995上海貝爾電話設備制造有限公司交換機工程師交換機局數據生成,局數據批量數據處理及分析,IBM大型機上編程分析
1995-1999摩托羅拉上海分公司交換機工程師通信交換機軟件測試,switchmate數據整理與分析
1999-2001朗訊科技上海辦事處技術支持產品的技術支持,負責相應的數據處理以及產品newsletter的資料收集和發布
2001-2003新加坡比技公司技術市場經理手機相關產品和增值業務的開發工作
2003-2007上海全成通信技術有限公司項目經理中移動和中國電信下屬多個省公司的數據分析與挖掘方案的供應商,曾經領導了多個“移動業務營銷支撐系統”及中移動省公司數據部和大客戶部的數據分析項目
2007-至今數據分析培訓師從事數據分析和挖掘方面的培訓咨詢工作 2017年出版《數據分析實戰:基于EXCEL和SPSS系列工具的實踐》一書,受到了業界的歡迎,https://item.jd.com/12080023.html。
現在第二本專著《從編程小白到python數據分析高手》已經和機械工業出版社簽訂出版合同,書稿正在寫作中,預計2023年1月出版:
紀賀元曾經在上海貝爾、MOTOROLA、Lucent、新加坡比技公司、上海全成等公司長期工作,在過去的實際工作中,本人積累了較多的在數據分析和挖掘的實戰經驗, 1995年即開始使用EXCEL VBA對于Motorola電信交換機的運營數據進行分析和編程處理,1998年即開始采用SPSS軟件進行數據分析和市場調查報表的分析工作,在新加坡比技公司、上海全成通信等公司組織和領導了多項移動通信增值業務數據的數據挖掘項目(采用COGNOS商業報表軟件和CLEMENTINE軟件)。
紀老師擅長的課程有:
本人也曾經參與或主持過多項數據分析方面、市場調研等方面的咨詢項目,包括 :
2020年:
(1)基于大數據的基金購買及止盈方式回測
(2)基金隨心查項目
2018年:
(3)上海大眾2019年培訓內部需求調研分析,問卷800多份,包括調研數據分析以及分析報告撰寫
(2)天順風能常熟工廠生產部及BOM運維報表系統,用VBA編程,代碼2.3萬行
(3)思南智庫營帳系統,用VBA編程,代碼0.9萬行
(4)寶鋼集團數據分析輪訓(9天,包括寶鋼上海下屬子公司、寶鋼國際、新疆八一鋼鐵等
2017年:某潤滑油企業市場調研數據分析
2016年:
基于百度和bing的類爬蟲軟件設計和編制
2015年:
上海張江高科科技園政府扶持企業資金投入產出績效分析項目(分析工具提供)(VBA實現DEA算法)
迪皮埃復材構件(太倉、大豐)兩公司生產部報表項目(VBA實現)
某證券私募企業股票指標數據跟蹤與分析系統(VBA實現)
上海卷煙銷售公司低焦油香煙消費者調研
2014年:
上海印鈔廠統計分析培訓專題咨詢
蘇州工業園區軟環境滿意度調研
上海某涂料公司3-5年發展規劃-市場信息檢索與利用
2013年:
(1)迪皮埃復材構件(太倉)有限公司,生產部數據流程整合咨詢項目(包括VBA編碼調試)
(2)上海印鈔廠統計分析專題咨詢
2011年:
內蒙古杏仁露產品上市前調研
2010年:
我國電子閱讀器市場用戶消費模式調研
2009年:
格林動力汽車尾氣凈化劑數據分析
楊浦區商管公司下屬商業網點調研
2005年:
2005年上海移動有限公司新產品發展模式市場調研
本人擅長數據分析和市場調研等方面的培訓,包括用EXCEL、EXCEL VBA、水晶易表、SPSS、SAS、CLEMENTINE等軟件進行營銷、生產制造、財務等方面的數據分析。
服務客戶(僅列知名企業):
汽車:上汽大眾鄭州、永達汽車、東風雪鐵龍、東風標致、大陸汽車、奇瑞技術中心、上汽集團、標致雪鐵龍、奇瑞汽車、大眾汽車、大眾聯合、大眾電子、重慶康明斯、寶馬發動機、華晨寶馬、優美科(中國)、天合汽車、偉巴斯特、大連中升之星、一汽大眾、保時捷、天津殼牌、中石化殼牌
金融:浦發銀行、交行總行、平安產險廣州分公司、平安銀行天津分行、360金融、陸金所、西安招商銀行、深圳民生銀行、建行第二總行(上海)、富邦華一、江蘇中行、太平洋保險(2019輪訓,10天)、富邦華一銀行、平安銀行、廣東佛山中國人壽保險、平安產險、平安證券、匯添富基金、成都某貸款公司
醫藥保健:北京大鵬、因美納、康寶萊、廣州健之寶、賽諾菲、阿斯利康、上海醫療器械集團、國藥集團、英特格拉、貝泰妮
互聯網:歐冶云商、寶尊電商、攜程、蘑菇街
電信:中移在線安徽分公司、臺州移動、海南移動、湖州移動、常州移動、北京移動、北京聯通、中移在線、深圳電信、中國移動集團公司、中國網通北京分公司、河南移動、杭州華數集團
工業:中廣核、北京國投氫能、施耐德、晶科能源、西門子、上海電氣、寶武集團、南京巴斯夫、公牛電器、德賽藍微電子、三洋電池(蘇州)、博威合金、上海印鈔廠、上海造幣廠、江南造船廠、可耐福(石膏板)蕪湖、賽默飛世爾、金泰線業、迪皮埃(太倉)
航空:吉祥航空、諾翼航空
食品及廚具:賓三得利、蘇泊爾、旺旺食品
商業及超市:華聯超市、百聯
其他:上海中心、上海外聯發、廣州景興、中石化殼牌、浦東新區發改委(統計局)、立邦涂料、上海強生、依視路(中國)、廣東國筆、大賽璐(中國)、地中海游輪(上海)
我要預訂
咨詢電話:027-5111 9925 , 027-5111 9926手機:18971071887郵箱:Service@mingketang.com