曙海教育集團
全國報名免費熱線:4008699035 微信:shuhaipeixun
或15921673576(微信同號) QQ:1299983702
首頁 課程表 在線聊 報名 講師 品牌 QQ聊 活動 就業
 
搜索引擎核心技術課程

 
  班級規模及環境--熱線:4008699035 手機:15921673576( 微信同號)
      每個班級的人數限3到5人,互動授課, 保障效果,小班授課。
  上間和地點
上部份地點:【上海】同濟大學(滬西)/新城金郡商務樓(11號線白銀路站)【深圳分部】:電影大廈(地鐵一號線大劇院站)/深圳大學成教院【北京分部】:北京中山學院/福鑫大樓【南京分部】:金港大廈(和燕路)【武漢分部】:佳源大廈(高新二路)【成都分部】:領館區1號(中和大道)【沈陽分部】:沈陽理工大學/六宅臻品【鄭州分部】:鄭州大學/錦華大廈【石家莊分部】:河北科技大學/瑞景大廈
最近開間(周末班/連續班/晚班):2020年3月16日
  實驗設備
    ◆小班教學,教學效果好
       
       ☆注重質量☆邊講邊練

       ☆合格學員免費推薦工作
       ★實驗設備請點擊這兒查看★
  質量保障

       1、培訓過程中,如有部分內容理解不透或消化不好,可免費在以后培訓班中重聽;
       2、培訓結束后,授課老師留給學員聯系方式,保障培訓效果,免費提供課后技術支持。
       3、培訓合格學員可享受免費推薦就業機會。☆合格學員免費頒發相關工程師等資格證書,提升職業資質。專注高端技術培訓15年,端海學員的能力得到大家的認同,受到用人單位的廣泛贊譽,端海的證書受到廣泛認可。

部份程大綱
 

第一部份:初識搜索引擎,了解其技術架構
1、按照各大搜索引擎商業公司使用的技術為依據對搜索引擎進行時代劃分
2、講解搜索引擎的三大實現目標
3、講解搜索引擎的三大核心問題及技術發展
4、詳細講解搜索引擎的技術架構

第二部份:講解網絡爬蟲
1、講解通用爬蟲框架
2、講解通過哪些特征來判斷一個網絡爬蟲是否優秀
3、詳細講解網絡爬蟲的抓取策略
4、詳細講解網絡爬蟲對網頁更新策略
5、詳細講解網絡爬蟲的暗網抓取
6、詳細講解分布式爬蟲

第三部份:講解搜索引擎索引
1、講解單詞--文檔矩陣、倒排索引基本概念、倒排索引簡單實例
2、講解單詞詞典:哈希加鏈表、樹形結構、
3、講解兩遍文檔遍歷法、排序法、歸并法、動態索引
4、講解索引更新策略:完全重建策略、在合并策略、原地跟新策略、
5、講解查詢處理:一次一文檔、一次一單詞、跳躍指針、多字段索引

第四部份:講解索引壓縮
1、講解詞典壓縮
2、講解倒排列表壓縮算法
3、講解文檔編號重排序
4、講解靜態索引裁剪

第五部份:檢索模型與搜索排序
1、講解布爾模型
2、講解向量空間模型
3、講解概率檢索模型
4、講解語言模型方法
5、講解機器學習排序

第六部份:講解鏈接分析
1、講解web圖
2、講解隨機游走模型、子集傳播模型、鏈接分析算法之間的關系
3、講解PageRank算法
4、講解HITS算法
5、講解SALSA算法
6、講解主題敏感PageRank
7、講解Hilltop算法

第七部份:云存儲與云計算
1、講解云存儲與云計算概述
2、講解CAP原理
3、講解Google的云存儲與云計算架構
4、講解google文件系統GFS
5、講解BigTable存儲模型
6、講解Map/Reduce云計算模型

第八部份:講解網頁反作弊
1、講解內容作弊
2、講解鏈接作弊
3、講解網頁隱藏作弊
4、講解Web 2.0作弊方法
5、講解反作弊技術的整體思路
6、講解通用鏈接反作弊方法
7、講解專用鏈接反作弊技術

第九部份:講解用戶查詢意圖分析
1、講解搜索行為及其意圖
2、講解搜索日志挖掘
3、講解相關搜索
4、講解查詢糾錯

第十部份:講解網頁去重
1、講解通用去重算法框架
2、講解Shingling算法
3、講解I-Match算法
4、講解SimHash算法
5、講解SpotSig算法

第十一部份:搜索引擎緩存機制
1、講解搜索引擎緩存系統架構
2、講解緩存對象
3、講解緩存結構
4、講解緩存淘汰策略
5、講解緩存跟新策略

第十二部份:講解搜索引擎的發展趨勢
1、講解個性化搜索
2、講解社會化搜索
3、講解實時搜索
4、講解移動搜索
5、講解地位位置感知搜索
6、講解跨語言搜索
7、講解多媒體搜索
8、講解情景搜索

第十三部份:實戰講解怎么構建一個搜索引擎01(使用Java開發)
1、準備搜索引擎開發環境、提取HTML文件內容:結構化信息提取、網頁架構相似度計算、正文提取工具FireBug、NekoHTML的使用
2、提取txt、pdf、word、execl、PowerPoint等文件內容、流媒體文件內容提取(音頻文件、視頻文件)
3、Lucene中的中文分詞、Lietu中文分詞的使用、理解Lucene的索引庫結構、設計一個簡單的索引庫
4、自動分類的SVM方法實現、K均值聚類方法、K均值實現、拼音轉換、語義搜索

第十四部份:實戰講解怎么構建一個搜索引擎02(使用java開發)
1、索引優化、查詢優化、實現時間加權排序、實現字詞混合索引、定制Similarity、定制Tokenizer
2、Lucene搜索接口、搜索頁面設計、實現搜索接口
3、實現關鍵字高亮、實現多維視圖、實現相似文檔搜索、實現AJAX自動完成
4、使用Solr實現分布式搜索:Solr服務器端的配置與中文支持、Solr索引庫的查找、Solr搜索優化、SolrJ查詢分析器、Solr的.net客戶端、Solr的php客戶端

 

-

 

  備案號:備案號:滬ICP備08026168號-1 .(2024年07月24日)....................
友情鏈接:Cadence培訓 ICEPAK培訓 EMC培訓 電磁兼容培訓 sas容培訓 羅克韋爾PLC培訓 歐姆龍PLC培訓 PLC培訓 三菱PLC培訓 西門子PLC培訓 dcs培訓 橫河dcs培訓 艾默生培訓 robot CAD培訓 eplan培訓 dcs培訓 電路板設計培訓 浙大dcs培訓 PCB設計培訓 adams培訓 fluent培訓系列課程 培訓機構課程短期培訓系列課程培訓機構 長期課程列表實踐課程高級課程學校培訓機構周末班培訓 南京 NS3培訓 OpenGL培訓 FPGA培訓 PCIE培訓 MTK培訓 Cortex訓 Arduino培訓 單片機培訓 EMC培訓 信號完整性培訓 電源設計培訓 電機控制培訓 LabVIEW培訓 OPENCV培訓 集成電路培訓 UVM驗證培訓 VxWorks培訓 CST培訓 PLC培訓 Python培訓 ANSYS培訓 VB語言培訓 HFSS培訓 SAS培訓 Ansys培訓 短期培訓系列課程培訓機構 長期課程列表實踐課程高級課程學校培訓機構周末班 端海 教育 企業 學院 培訓課程 系列班 長期課程列表實踐課程高級課程學校培訓機構周末班 短期培訓系列課程培訓機構 端海教育企業學院培訓課程 系列班
主站蜘蛛池模板: 日韩亚洲国产综合久久久| 色欲香天天天综合网站| 久久综合偷偷噜噜噜色| 国产综合久久久久久鬼色| 狠狠综合久久综合中文88| 亚洲国产精品综合久久网络| 亚洲小说图区综合在线| 亚洲国产日韩成人综合天堂| 色欲综合久久躁天天躁蜜桃| 天天看天天摸色天天综合网| 亚洲伊人久久综合中文成人网| 亚洲综合最新无码专区| 天天综合久久久网| 欧美激情综合网| 五月天激情综合网丁香婷婷| 女人和拘做受全程看视频日本综合a一区二区视频| 婷婷五月综合缴情在线视频| 亚洲成a人v欧美综合天堂| 五月天激情综合网| 天天做天天爱天天爽综合网| 一本久久a久久精品综合夜夜| 国产欧美日韩综合精品二区| 婷婷综合久久中文字幕| 国产亚洲精品精品国产亚洲综合| 色综合婷婷在线观看66| 日韩无码系列综合区| 激情综合色五月丁香六月欧美| 亚洲综合久久夜AV | 亚洲成A人V欧美综合天堂麻豆| 一本久久a久久精品综合夜夜| 狠狠狠色丁香婷婷综合久久俺| 欧美亚洲日本国产综合网| 激情综合亚洲色婷婷五月| 97se色综合一区二区二区| 激情综合色五月丁香六月欧美| 亚洲欧美日韩综合一区| 精品综合久久久久久888蜜芽| 国产综合成人久久大片91| 综合五月激情五月开心婷婷| 93精91精品国产综合久久香蕉| AV色综合久久天堂AV色综合在|