《解密搜索引擎技术实战——Lucene&Java精华版（第3版）》 - 593.0新台幣 - 罗刚等编著 - HongKong Book Store

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台( 0 )　\|　在線留言板　 \|　付款方式　 \|　聯絡我們　 \|　運費計算　 \|　幫助中心　\|　加入書簽
		會員登入新註冊 \|　新用戶登記

HOME

新書上架

暢銷書架

好書推介

2023年度TOP

香港／國際用戶

最新/最熱/最齊全的簡體書網

品種：超過100萬種書，正品正价，放心網購，悭钱省心

送貨：速遞 / EMS，時效：出貨後2-3日

『簡體書』解密搜索引擎技术实战——Lucene&Java精华版（第3版）

書城自編碼： 2778736
分類：簡體書→大陸圖書→計算機/網絡→程序設計
作者：罗刚等编著
國際書號(ISBN)： 9787121281112
出版社：电子工业出版社
出版日期： 2016-03-01

頁數/字數： 511页
書度/開本： 16开釘裝：平装

售價：NT$ 593

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《台湾农业产业发展研究》
售價：NT$ 549.0

《流风回雪：六朝名士的庙堂与山林（论衡系列）》
售價：NT$ 381.0

《妈妈，我想为自己而活》
售價：NT$ 325.0

《再造大唐：郭子仪评传》
售價：NT$ 437.0

《人性的博弈：为什么做个好人这么难》
售價：NT$ 381.0

《不完美的自我：接纳与放手，让自己活得更有韧性》
售價：NT$ 330.0

《苏菲的世界（漫画版）：寻找自我的旅程》
售價：NT$ 442.0

《让改变发生：学校改进视角下的办学思考与实践叙事》
售價：NT$ 258.0

建議一齊購買：

NT$ 1138
《国家重点保护经济水生动植物图谱》

NT$ 518
《医药卫生法学》

NT$ 368
《自己动手写网络爬虫（修订版）》

NT$ 593
《自然语言处理原理与技术实现》

NT$ 293
《自制搜索引擎》

NT$ 490
《 Lucene搜索引擎开发进阶实战（从实用的角度出发，理论与实战相结合，配以大量的案例，深入探讨Lucene搜索引擎开发的实现方法和技巧）》

編輯推薦：

1、《解密搜索引擎技术实战：Lucene & Java精华版（第3版）》是畅销书的升级版，从实用的角度出发，全面介绍了搜索引擎相关技术。2、作者罗刚对搜索引擎技术非常熟悉，本书是其软件研发和教学实践的经验汇总。3、《解密搜索引擎技术实战：Lucene & Java精华版（第3版）》非常适合想全面了解搜索引擎技术及实现方法的读者阅读，亦可作为相关专业学生的参考用书。

內容簡介：

本书是猎兔搜索开发团队的软件研发和教学实践的经验汇总。本书总结搜索引擎相关理论与实际解决方案，并给出了Java实现，其中利用了流行的开源项目Lucene和Solr，而且还包括原创的实现。本书主要包括总体介绍部分、爬虫部分、自然语言处理部分、全文检索部分以及相关案例分析。爬虫部分介绍了网页遍历方法和如何实现增量抓取，并介绍了从网页等各种格式的文档中提取主要内容的方法。自然语言处理部分从统计机器学习的原理出发，包括了中文分词与词性标注的理论与实现及在搜索引擎中的应用等细节，同时对文档排重、文本分类、自动聚类、句法分析树、拼写检查等自然语言处理领域的经典问题进行了深入浅出的介绍，并总结了实现方法。在全文检索部分，结合Lucene介绍了搜索引擎的原理与进展。用简单的例子介绍了Lucene的最新应用方法，包括完整的搜索实现过程：从完成索引到搜索用户界面的实现。此外还进一步介绍了实现准实时搜索的方法，展示了Solr的用法以及实现分布式搜索服务集群的方法。最后介绍了在地理信息系统领域和户外活动搜索领域的应用。

關於作者：

罗刚，猎兔搜索创始人，带领猎兔搜索技术开发团队先后开发出猎兔中文分词系统、猎兔信息提取系统、猎兔智能垂直搜索系统以及网络信息监测系统等，实现互联网信息的采集、过滤、搜索和实时监测。曾编写出版《自己动手写搜索引擎》、《自己动手写网络爬虫》、《使用C#开发搜索引擎》，获得广泛好评。在北京和上海等地均有猎兔培训的学员。

第1章搜索引擎总体结构11.1 搜索引擎基本模块11.2 开发环境21.3 搜索引擎工作原理31.3.1 网络爬虫41.3.2 全文索引结构与Lucene实现41.3.3 搜索用户界面71.3.4 计算框架81.3.5 文本挖掘91.4 本章小结9第2章网络爬虫的原理与应用112.1 爬虫的基本原理112.2 爬虫架构142.2.1 基本架构142.2.2 分布式爬虫架构162.2.3 垂直爬虫架构172.3 抓取网页182.3.1 下载网页的基本方法192.3.2 网页更新232.3.3 抓取限制应对方法252.3.4 URL地址提取282.3.5 抓取JavaScript动态页面282.3.6 抓取即时信息312.3.7 抓取暗网322.3.8 信息过滤332.3.9 最好优先遍历392.4 存储URL地址402.4.1 BerkeleyDB402.4.2 布隆过滤器422.5 并行抓取452.5.1 多线程爬虫462.5.2 垂直搜索的多线程爬虫482.5.3 异步IO492.6 RSS抓取532.7 抓取FTP552.8 下载图片552.9 图像的OCR识别562.9.1 图像二值化572.9.2 切分图像602.9.3 SVM分类632.10 Web结构挖掘672.10.1 存储Web图672.10.2 PageRank算法712.10.3 HITs算法772.10.4 主题相关的PageRank812.11 部署爬虫832.12 本章小结83第3章索引内容提取863.1 从HTML文件中提取文本863.1.1 识别网页的编码863.1.2 网页编码转换为字符串编码893.1.3 使用正则表达式提取数据893.1.4 结构化信息提取913.1.5 网页的DOM结构943.1.6 使用NekoHTML提取信息953.1.7 使用Jsoup提取信息1013.1.8 网页去噪1053.1.9 网页结构相似度计算1103.1.10 提取标题1123.1.11 提取日期1133.2 从非HTML文件中提取文本1133.2.1 提取标题的一般方法1143.2.2 PDF文件1183.2.3 Word文件1223.2.4 Rtf文件1233.2.5 Excel文件1343.2.6 PowerPoint文件1373.3 流媒体内容提取1373.3.1 音频流内容提取1383.3.2 视频流内容提取1403.4 存储提取内容1423.5 本章小结143第4章中文分词的原理与实现1444.1 Lucene中的中文分词1454.1.1 Lucene切分原理1454.1.2 Lucene中的Analyzer1464.1.3 自己写Analyzer1484.1.4 Lietu中文分词1504.2 查找词典算法1514.2.1 标准Trie树1514.2.2 三叉Trie树1544.3 中文分词的原理1594.4 中文分词流程与结构1624.5 形成切分词图1644.6 概率语言模型的分词方法1694.7 N元分词方法1734.8 新词发现1784.9 未登录词识别1794.10 词性标注1804.10.1 隐马尔可夫模型1834.10.2 基于转换的错误学习方法1914.11 平滑算法1934.12 本章小结198第5章让搜索引擎理解自然语言1995.1 停用词表2005.2 句法分析树2015.3 相似度计算2055.4 文档排重2095.4.1 语义指纹2105.4.2 SimHash2135.4.3 分布式文档排重2235.5 中文关键词提取2235.5.1 关键词提取的基本方法2235.5.2 HITS算法应用于关键词提取2265.5.3 从网页中提取关键词2285.6 相关搜索词2285.6.1 挖掘相关搜索词2295.6.2 使用多线程计算相关搜索词2315.7 信息提取2325.8 拼写检查与建议2375.8.1 模糊匹配问题2405.8.2 英文拼写检查2425.8.3 中文拼写检查2445.9 自动摘要2475.9.1 自动摘要技术2475.9.2 自动摘要的设计2475.9.3 Lucene中的动态摘要2545.10 文本分类2575.10.1 特征提取2595.10.2 中心向量法2625.10.3 朴素贝叶斯2655.10.4 支持向量机2725.10.5 规则方法2795.10.6 网页分类2825.11 拼音转换2835.12 概念搜索2845.13 多语言搜索2925.14 跨语言搜索2935.15 情感识别2955.15.1 确定词语的褒贬倾向2985.15.2 实现情感识别3005.16 本章小结301第6章 Lucene原理与应用3036.1 Lucene深入介绍3046.1.1 常用查询对象3046.1.2 查询语法与解析3046.1.3 查询原理3086.1.4 分析文本3096.1.5 使用Filter筛选搜索结果3166.1.6 遍历索引库3176.1.7 索引数值列3186.2 Lucene中的压缩算法3226.2.1 变长压缩3226.2.2 PForDelta3246.2.3 前缀压缩3266.2.4 差分编码3286.3 创建和维护索引库3306.3.1 创建索引库3306.3.2 向索引库中添加索引文档3316.3.3 删除索引库中的索引文档3346.3.4 更新索引库中的索引文档3346.3.5 索引的合并3356.3.6 索引文件格式3356.4 查找索引库3386.4.1 查询过程3386.4.2 常用查询3426.4.3 基本词查询3436.4.4 模糊匹配3436.4.5 布尔查询3456.4.6 短语查询3476.4.7 跨度查询3496.4.8 FieldScoreQuery3536.5 读写并发控制3566.6 检索模型3566.6.1 向量空间模型3576.6.2 BM25概率模型3616.6.3 统计语言模型3676.7 本章小结369第7章搜索引擎用户界面3707.1 实现Lucene搜索3707.2 实现搜索接口3727.2.1 编码识别3727.2.2 布尔搜索3757.2.3 指定范围搜索3757.2.4 搜索结果排序3767.2.5 搜索页面的索引缓存与更新3777.3 历史搜索词记录3807.4 实现关键词高亮显示3817.5 实现分类统计视图3837.6 实现Ajax搜索联想词3887.6.1 估计查询词的文档频率3887.6.2 搜索联想词总体结构3897.6.3 服务器端处理3897.6.4 浏览器端处理3907.6.5 服务器端改进3957.6.6 拼音提示3987.6.7 部署总结3997.7 集成其他功能3997.7.1 拼写检查3997.7.2 分类统计4007.7.3 相关搜索4027.7.4 再次查找4057.7.5 搜索日志4057.8 搜索日志分析4077.8.1 日志信息过滤4077.8.2 信息统计4097.8.3 挖掘日志信息4117.9 本章小结412第8章使用Solr实现企业搜索4138.1 Solr简介4138.2 Solr基本用法4148.2.1 Solr服务器端的配置与中文支持4158.2.2 把数据放进Solr4218.2.3 删除数据4238.2.4 Solr客户端与搜索界面4248.2.5 Spring实现的搜索界面4258.2.6 Solr索引库的查找4368.2.7 索引分发4408.2.8 Solr搜索优化4428.3 Solr扩展与定制4458.3.1 Solr中字词混合索引4458.3.2 相关检索4478.3.3 搜索结果去重4498.3.4 定制输入输出4538.3.5 分布式搜索4578.3.6 SolrJ查询分析器4588.3.7 扩展SolrJ4668.3.8 扩展Solr4678.3.9 查询Web图4718.4 本章小结473第9章地理信息系统案例分析4749.1 新闻提取4749.2 POI信息提取4799.2.1 提取主体4849.2.2 提取地区4859.2.3 指代消解4879.3 机器翻译4899.3

內容試閱：

3.3.1
音频流内容提取
Sphinx-4（http:cmusphinx.sourceforge.net）是采用Java实现的一个语音识别软件。Sphinx是一个基于隐马尔科夫模型的系统，首先它需要学习一套语音单元的特征，然后根据所学来推断出所需要识别的语音信号最可能的结果。学习语音单元特征的过程叫做训练。应用所学来识别语音的过程有时也被称为解码。在Sphinx系统中，训练部分由Sphinx
Trainer来完成，解码部分由Sphinx
Decoder来完成。为了识别普通话，可以使用Sphinx Trainer自己建立普通话的声学模型。训练时需要准备好语音信号（Acoustic Signals）与训练用语音信号对应的文本（Transcript File）。当前Sphinx-4只能使用Sphinx-3 Trainer生成的Sphinx-3声学模型。有计划创建Sphinx-4 trainer用来生成Sphinx-4专门的声学模型，但是这个工作还没完成。
讲稿（transcript）文件中记录了单词和非讲话声的序列。序列接着一个标记可以把这个序列和对应的语音信号关联起来。
例如有160个wav文件，每个文件对应一个句子的发音。例如，播放第一个声音文件，会听到a player threw the ball to me，而且就这一句话。可以把这些wav或者raw格式的声音文件放到myasmwav目录下。
接下来，需要一个控制文件。控制文件只是一个文本文件。这里把控制文件命名为
myam_train.fields（必须把它命名成[name]_train.fileids的形式，这里[name]是任务的名字，例如myam），其中有每个声音文件的名字（注意，没有文件扩展名）。
0001
0002
0003
0004
接下来，需要一个讲稿文件，文件中的每行有一个独立文件的发声，必须和控制文件相对应。例如，如果控制文件中第一行是0001，因此讲稿文件中的第一行就是A player threw the ball to me，因为这是0001.wav 的讲稿。讲稿文件也是一个文本文件，命名成myam.corpus，应该有和控制文件同样多行。讲稿不包括标点符号，所以应删除所有标题符号，例如：
a player threw the ball
to me
does he like to swim
out to sea
how many fish are in
the water
you are a good kind of
person
以这样的顺序，对应0001、0002、0003和0004文件。
现在有了一些声音文件、一个控制文件和一个讲稿文件。
Sphinx-4由3个主要模块组成：前端处理器（FrontEnd）、解码器（Decoder）和语言处理器（Linguist），其结构如图3-17所示。前端把一个或多个输入信号参数转化成特征序列。语言处理器把任何类型的标准语言模型和声学模型以及词典中的发声信息转换成为搜索图。这里，声学模型用来表示字符如何发音，语言模型用来评估一个句子的概率。解码器中的搜索管理器使用前端处理器生成的特征执行实际的解码并生成结果。在识别之前或识别过程中，应用程序都可以发出对每个模块的控制，这样就可以有效地参与到识别过程中来。

图3-17 Sphinx-4结构
语音识别的准确率受限于其识别的内容，内容越简单，则识别准确率越高，所以一般根据某个应用场景来识别语音。例如电视台要给录制的新闻节目加字幕，有批处理和实时翻译两种方式，这里采用批处理的方式。以识别新闻节目为例，开发流程说明如下。
准备新闻语料库：语料库就是一个文本文件，每行一个句子。
创建语言模型：一般采用基于统计的N元语言模型，例如ARPA格式的语言模型。可以使用语言模型工具Kylm（http:www.phontron.comkylm）生成ARPA格式的语言模型文件。
创建发声词典：对于英文可以采用ARPABET格式注音的发音词典。由于汉语是由音节（Syllable）组成的语言，所以可以采用音节作为汉语语音识别基元。每个音节对应一个汉字，比较容易注音。此外，每个音节由声母和韵母组成，声韵母作为识别基元也是一种选择。
设置配置文件：在配置文件中设置词典文件和语言模型路径。
在Eclipse中执行语音识别的Java程序。初始情况下，需要执行jsapi.exe或jsapi.sh生成出jsapi.jar文件。
edu.cmu.sphinx.tools.feature.FeatureFileDumper可以从音频文件中导出特征文件，例如MFCC特征。一般提取语音信号的频率特征，找出语音信号中的音节叫做端点检测，也就是找出每个字的开始端点和结束端点。因为语音信号中往往存在噪音，所以不是很容易找准端点。
Transcriber.jar可以实现从声音文件中导出讲稿文件：
D:\sphinx4-1.0beta5\binjava -jar -mx300M Transcriber.jar
one zero zero zero one
nine oh two one oh
zero one eight zero three

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	香港用户　 \|　台灣用户　\|　海外用户

megBook.com.tw
Copyright (C) 2013 - 2024 （香港）大書城有限公司　All Rights Reserved.