曙海教育集團
全國報名免費熱線:4008699035 微信:shuhaipeixun
或15921673576(微信同號) QQ:1299983702
首頁 課程表 在線聊 報名 講師 品牌 QQ聊 活動 就業
 
 
     班級規模及環境--熱線:4008699035 手機:15921673576( 微信同號)
         每期人數限3到5人。
     上課時間和地點
  上課地點:【上海】:同濟大學(滬西)/新城金郡商務樓(11號線白銀路站) 【深圳分部】:電影大廈(地鐵一號線大劇院站)/深圳大學成教院 【北京分部】:北京中山學院/福鑫大樓 【南京分部】:金港大廈(和燕路) 【武漢分部】:佳源大廈(高新二路) 【成都分部】:領館區1號(中和大道) 【沈陽分部】:沈陽理工大學/六宅臻品 【鄭州分部】:鄭州大學/錦華大廈 【石家莊分部】:河北科技大學/瑞景大廈 【廣州分部】:廣糧大廈 【西安分部】:協同大廈
最近開課時間(周末班/連續班/晚班):2020年3月16日
     實驗設備
       ☆資深工程師授課
        
        ☆注重質量 ☆邊講邊練

        ☆合格學員免費推薦工作
        ★實驗設備請點擊這兒查看★
     質量保障
 

        1、培訓過程中,如有部分內容理解不透或消化不好,可免費在以后培訓班中重聽;
        2、培訓結束后,授課老師留給學員聯系方式,保障培訓效果,免費提供課后技術支持。
        3、培訓合格學員可享受免費推薦就業機會。

 
課程大綱
   
 


?

垂直搜索引擎是針對某一個行業的專業搜索引擎,是搜索引擎的細分和延伸,是對網頁庫中的某類專門的信息進行一次整合,定向分字段抽取出需要的數據進行處理后再以某種形式返回給用戶。垂直搜索是相對通用搜索引擎的信息量大、查詢不準確、深度不夠等提出來的新的搜索引擎服務模式,通過針對某一特定領域、某一特定人群或某一特定需求提供的有一定價值的信息和相關服務。其特點就是“專、精、深”,且具有行業色彩,相比較通用搜索引擎的海量信息無序化,垂直搜索引擎則顯得更加專注、具體和深入。

?

垂直搜索引擎原理圖

?

什么是垂直搜索引擎 最有前途的軟件開發技術搜索引擎技術 開源爬蟲: Heritrix 1.14.4 安裝/使用
?

?

1、整體思路

整個課程,按照一個從無到有的過程來展開。所有的數據,來自于互聯網,用heritrix去抓取。對于抓取的數據,進行去重,去標簽,然后利用lucene 和 solr 進行索引和搜索。如下圖所示:

?

?

整個課程 的最大特點是內容新穎全面而又通俗易懂。對于實際搜索引擎所涉及的各種核心技術都有全面細致的介紹,除了作為搜索系統核心的網絡爬蟲、索引系統、排序系統、鏈接分析及用戶分析外,還包括網頁反作弊、緩存管理、網頁去重技術等實際搜索引擎必須關注的技術,同時用相當大的篇幅講解了云計算與云存儲的核心技術原理及實現。

?

整個課程的另一亮點是:整個項目的構建全部采用最新技術,包括但不限于以下技術:struts 2.3.16 +spring 4.0.1 +hibernate 4.3.1+jquery-easyui 1.3.5+lucene 4.6.0+solr 4.6.0+Heritrix1.14并對其做了二次封裝。為了增進學員的理解,課程大量引入形象的圖片來講解算法原理,相信讀者會發現原來搜索引擎的核心技術理解起來比原先想象的要簡單得多。

?

?

一、理論部分:

2.1、搭建heritrix

1.什么是網絡爬蟲

2.網絡爬蟲能做什么

3.Heritrix原理

4.Heritrix搭建

?

2.2、如何進行主題抓取

1.什么是主題抓取

2.主題抓取的意義

3.主題抓取的策略

4.如何用heritrix進行主題抓取

?

2.3、heritrix優化

1. ELFHash算法

2.關于robot.txt

3.將heritrix打包成工具

?

2.4、解析html頁面

1.java正則表達式

2.基于模板獲取網頁內容

3.利用htmlparser解析html

?

2.5、中文分詞介紹

1.Lucene自帶的分詞

2.ICTCLAS

3.IK

4.利用機器學習的算法識別中文文章中的領域詞

?

2.6、網頁去重

1.網頁去重的意義

2.網頁去重的主要方法

3.什么是tf*idf

4.基于指紋算法的網頁去重

?

2.7、Lucene4.6快速索引與搜索

1.如何用lucene創建索引

2.如何用lucene搜索結果

3.Lucene中intfield怎么搜索

4.Lucene的結果高亮顯示

?

2.8、Lucene4.6索引的相關操作

1.創建索引

2.修改索引

3.刪除索引

4.索引優化

?

2.9、Lucene4.6的query、及queryparser

1.TermQuery?

2.BooleanQuery

3.TermRangeQuery

4.NumericRangeQuery

5.PrefixQuery

6.PhraseQuery

7.MultiPhraseQuery

8.FuzzyQuery

9.WildcardQuery

10.queryparser

?

2.10、Lucene的Filter及自定義排序

1.Filter

2.Lucene自帶排序及指定權重

3.Lucene自定義排序

?

2.11、Solr快速索引與搜索

1.什么是solr

2.為什么工程中要使用solr

3.Solr的原理

4.如何在tomcat中運行solr

5.如何利用solr進行索引與搜索

?

2.12、Solr的查詢及Filter

1.solr的各種查詢

2.solr的Filter

3.solr的排序

4.solr的高亮

?

2.13、Solr的facet介紹

1.solr的某個域統計

2.solr的范圍統計

?

2.14、Solrcloud集群搭建

1.zookeeper簡介

2.solrcloud集群搭建

?

2.15、搜索服務的工具封裝

1.工廠模式

2.封裝搜索服務_lucene

3.封裝搜索服務_solr

4.將lucene與solr封裝成可以配置的工具,可以支持任何業務系統

?

二、項目部分:

2.16、項目實戰

1.項目需求分析及框架選擇

2.Struts 2.3.16介紹

3.Struts 2.3.16整合Spring 4.0.1

4.Spring 4.0.1整合hibernate 4.3.1

5.利用jquery-easyui 1.3.5 做后臺管理頁面

6.Heritrix 在工程中的運用

7.封裝好的搜索框架在工程中的運用

8.Flexpaper模仿百度文庫

9.文件上傳

10.相關代碼編寫

11.搜索結果優化

12.項目總結

 

??????? Troubleshooting Java Applications
? ? ? ? ? ? ? ? Classpath Errors
? ? ? ? ? ? ? ? Class Loaders
? ? ? ? ? ? ? ? Common Java Errors
??????? Troubleshooting Servers
? ? ? ? ? ? ? ? Native Libraries
? ? ? ? ? ? ? ? Threading Architecture
? ? ? ? ? ? ? ? Work Managers
? ? ? ? ? ? ? ? Deadlocks
? ? ? ? ? ? ? ? Overload Protection
? ? ? ? ? ? ? ? Deployment Problems
??????? Troubleshooting JDBC
? ? ? ? ? ? ? ? Data Source Management
? ? ? ? ? ? ? ? Diagnostics
? ? ? ? ? ? ? ? Debug Flags
? ? ? ? ? ? ? ? Connectivity Problems
? ? ? ? ? ? ? ? Connection Leaks
? ? ? ? ? ? ? ? Database Availability
??????? Troubleshooting JMS
? ? ? ? ? ? ? ? Management
? ? ? ? ? ? ? ? MBean Hierarchy
? ? ? ? ? ? ? ? Message Logging
? ? ? ? ? ? ? ? Diagnostics
? ? ? ? ? ? ? ? Debug Flags
? ? ? ? ? ? ? ? Overload Protection
? ? ? ? ? ? ? ? Lost Messages
? ? ? ? ? ? ? ? Duplicate Messages
??????? Troubleshooting Security
? ? ? ? ? ? ? ? SSL Internals
? ? ? ? ? ? ? ? Keystore Management
? ? ? ? ? ? ? ? Debug Flags
? ? ? ? ? ? ? ? Common SSL Problems
? ? ? ? ? ? ? ? Certificate Validation
? ? ? ? ? ? ? ? Embedded LDAP
? ? ? ? ? ? ? ? Security Audit
? ? ? ? ? ? ? ? Common LDAP Problems
??????? Troubleshooting Node Manager
? ? ? ? ? ? ? ? Internals
? ? ? ? ? ? ? ? Security
? ? ? ? ? ? ? ? Common Issues
??????? Troubleshooting Clusters
? ? ? ? ? ? ? ? Plug-in Configuration
? ? ? ? ? ? ? ? OHS Overview
? ? ? ? ? ? ? ? Plug-in Connectivity
? ? ? ? ? ? ? ? Plug-in Diagnostics
? ? ? ? ? ? ? ? Unicast Communication
? ? ? ? ? ? ? ? Replication Debug Flags
? ? ? ? ? ? ? ? Typical Replication Issues
熱線:4008699035 手機:15921673576( 微信同號)
備案號:備案號:滬ICP備08026168號-1 .(2024年07月24日)......................
友情鏈接:Cadence培訓 ICEPAK培訓 EMC培訓 電磁兼容培訓 sas容培訓 羅克韋爾PLC培訓 歐姆龍PLC培訓 PLC培訓 三菱PLC培訓 西門子PLC培訓 dcs培訓 橫河dcs培訓 艾默生培訓 robot CAD培訓 eplan培訓 dcs培訓 電路板設計培訓 浙大dcs培訓 PCB設計培訓 adams培訓 fluent培訓系列課程 培訓機構課程短期培訓系列課程培訓機構 長期課程列表實踐課程高級課程學校培訓機構周末班培訓 南京 NS3培訓 OpenGL培訓 FPGA培訓 PCIE培訓 MTK培訓 Cortex訓 Arduino培訓 單片機培訓 EMC培訓 信號完整性培訓 電源設計培訓 電機控制培訓 LabVIEW培訓 OPENCV培訓 集成電路培訓 UVM驗證培訓 VxWorks培訓 CST培訓 PLC培訓 Python培訓 ANSYS培訓 VB語言培訓 HFSS培訓 SAS培訓 Ansys培訓 短期培訓系列課程培訓機構 長期課程列表實踐課程高級課程學校培訓機構周末班 端海 教育 企業 學院 培訓課程 系列班 長期課程列表實踐課程高級課程學校培訓機構周末班 短期培訓系列課程培訓機構 端海教育企業學院培訓課程 系列班
主站蜘蛛池模板: 久久亚洲欧洲国产综合| 久久精品水蜜桃av综合天堂| 五月综合激情婷婷六月色窝| 亚洲综合日韩精品欧美综合区| 亚洲欧美国产日韩综合久久| 欧美韩国精品另类综合| 国产综合在线观看| 色婷婷六月亚洲综合香蕉| 国产综合成人久久大片91| 亚洲激情综合网| 国产成人亚洲综合一区| 色噜噜狠狠色综合久| 伊人久久综合无码成人网| 国产欧美日韩综合精品一区二区三区| 一本一本久久a久久综合精品蜜桃| 天天干天天色综合| 久久综合九色欧美综合狠狠| 色综合伊人色综合网站| 国产精品无码久久综合| 狠狠88综合久久久久综合网| 99久久婷婷国产综合精品草原| 色综合久久久久综合体桃花网| 婷婷色中文字幕综合在线| 亚洲丁香色婷婷综合欲色啪| 国产成人综合久久久久久| 一本色道久久综合| 老色鬼久久亚洲AV综合| 久久乐国产综合亚洲精品| 欧美成人精品一区二区综合| 91探花国产综合在线精品| 狼狼综合久久久久综合网| 久久综合九色综合久99| 狠狠色伊人亚洲综合成人| 国产精品欧美亚洲日本综合| 亚洲乱码中文字幕综合| 国产成+人+综合+欧美亚洲| 欧美综合图区亚欧综合图区| 久久一日本道色综合久久| 激情综合色综合啪啪开心| 色综合合久久天天给综看| 久久婷婷五月综合色高清|