開啟主選單

求真百科

現代信息檢索

來自 孔夫子網 的圖片

現代信息檢索》,[智] 貝澤耶茨 等著,黃萱菁 著,出版社: 機械工業出版社。

機械工業出版社成立於1950年,是建國後國家設立的第一家科技出版社,前身為科學技術出版社,1952年更名為機械工業出版社[1]。機械工業出版社(以下簡稱機工社)由機械工業信息研究院作為主辦單位,目前隸屬於國務院國資委[2]

目錄

內容簡介

《現代信息檢索(原書第2版)》論述信息檢索的概念和技術、這些技術在搜索引擎中的應用,及其對相關領域知識的影響等,主要內容包括:用戶界面設計;經典的信息檢索模型、結果質量評估和用戶相關反饋;文檔和查詢概念及其相關技術;文檔集索引和搜索技術;Web文檔的爬取、檢索和排序;結構化文本檢索、多媒體檢索和企業搜索;圖書館系統和數字圖書館等。

《現代信息檢索(原書第2版)》內容廣泛、細節豐富、深入淺出,可以作為高等院校信息管理與信息系統、計算機科學與技術、圖書館學、情報學、檔案學等專業本科生和研究生的教材或參考書,對從事信息檢索及系統分析、設計的實際工作者也有較高的參考價值。

目錄

出版者的話

譯者序

第2版前言

前言

第2版致謝

版致謝

出版商致謝

章 引言

1.1 信息檢索

1.1.1 信息檢索的早期發展

1.1.2 圖書館和數字圖書館中的信息檢索

1.1.3 舞台中央的信息檢索

1.2 信息檢索問題

1.2.1 用戶的任務

1.2.2 信息檢索與數據檢索

1.3 信息檢索系統

1.3.1 信息檢索系統的軟件架構

1.3.2 檢索和排序過程

1.4 Web

1.4.1 Web簡史

1.4.2 電子出版時代

1.4.3 Web如何改變搜索

1.4.4 Web上的實際問題

1.5 本書的組織結構

1.5.1 本書的重點

1.5.2 本書的內容

1.6 本書的教學資源網站

1.7 文獻討論

第2章 用戶搜索界面

2.1 介紹

2.2 人們如何搜索

2.2.1 信息查找與探索式搜索

2.2.2 信息搜尋的經典模型與動態模型

2.2.3 導航與搜索

2.2.4 對搜索過程的觀察

2.3 現今的搜索界面

2.3.1 啟動搜尋

2.3.2 查詢描述

2.3.3 查詢描述界面

2.3.4 檢索結果顯示

2.3.5 查詢重構

2.3.6 組織搜索結果

2.4 搜索界面的可視化

2.4.1 可視化布爾語法

2.4.2 可視化查詢結果中的查詢項

2.4.3 可視化詞語和文檔間的關係

2.4.4 文本挖掘的可視化

2.5 搜索界面的設計和評價

2.6 趨勢和研究問題

2.7 文獻討論

第3章 信息檢索建模

3.1 信息檢索模型

3.1.1 建模和排序

3.1.2 信息檢索模型描述

3.1.3 信息檢索模型的分類體系

3.2 經典信息檢索

3.2.1 基本概念

3.2.2 布爾模型

3.2.3 項權重

3.2.4 TF-IDF權重

3.2.5 文檔長度歸一化

3.2.6 向量模型

3.2.7 概率模型

3.2.8 經典模型之間的簡單比較

3.3 其他集合論模型

3.3.1 基於集合的模型

3.3.2 擴展布爾模型

3.3.3 模糊集模型

3.4 其他代數模型

3.4.1 廣義向量空間模型

3.4.2 潛在語義索引模型

3.4.3 神經網絡模型

3.5 其他概率模型

3.5.1 BM25模型

3.5.2 語言模型

3.5.3 隨機差異模型

3.5.4 貝葉斯網模型

3.6 其他模型

3.6.1 超文本模型

3.6.2 基於Web的模型

3.6.3 結構化文本檢索

3.6.4 多媒體檢索

3.6.5 企業和垂直搜索

3.7 趨勢和研究問題

3.8 文獻討論

第4章 檢索評價

4.1 介紹

4.2 Cranfield範式

4.2.1 歷史簡述

4.2.2 參考集

4.3 檢索指標

4.3.1 精度和召回率

4.3.2 單值總結:P@n,MAP,MRR,F

4.3.3 面向用戶的指標

4.3.4 折扣累積增益

4.3.5 二元偏好

4.3.6 排序相關性測度

4.4 參考文檔集

4.4.1 TREC參考集

4.4.2 其他參考集

4.4.3 其他小規模測試文檔集

4.5 基於用戶的評價

4.5.1 實驗室中的人工實驗

4.5.2 並排面板

4.5.3 A/B測試

4.5.4 眾包

4.5.5 使用點擊數據的評價

4.6 實踐說明

4.7 趨勢和研究問題

4.8 文獻討論

第5章 相關反饋與查詢擴展

5.1 介紹

5.2 反饋方法的框架

5.3 顯式相關反饋

5.3.1 向量模型的相關反饋:Rocchio方法

5.3.2 概率模型的相關反饋

5.3.3 相關反饋的評價

5.4 基於點擊的顯式反饋

5.4.1 眼動追蹤和相關性評價

5.4.2 用戶行為

5.4.3 點擊作為用戶偏好的指標

5.5 通過局部分析的隱式反饋

5.5.1 通過局部聚類的隱式反饋

5.5.2 通過局部上下文分析的隱式反饋

5.6 通過全局分析的隱式反饋

5.6.1 基於相似度同義詞典的查詢擴展

5.6.2 基於統計同義詞典的查詢擴展

5.7 趨勢和研究問題

5.8 文獻討論

第6章 文檔:語言及屬性

6.1 介紹

6.2 元數據

6.3 文檔格式

6.3.1 文本

6.3.2 多媒體

6.3.3 圖形和虛擬現實

6.4 標記語言

6.4.1 SGML

6.4.2 HTML

6.4.3 XML

6.4.4 RDF

6.4.5 HyTime

6.5 文本屬性

6.5.1 信息論

6.5.2 自然語言建模

6.5.3 文本相似度

6.6 文檔預處理

6.6.1 文本的詞彙分析

6.6.2 去除禁用詞

6.6.3 詞幹提取

6.6.4 關鍵詞選擇

6.6.5 同義詞典

6.7 組織文檔

6.7.1 分類體系法

6.7.2 分眾分類法

6.8 文本壓縮

6.8.1 基本概念

6.8.2 統計方法

6.8.3 統計方法:建模

6.8.4 統計方法:編碼

6.8.5 字典方法

6.8.6 壓縮預處理

6.8.7 文本壓縮技術的比較

6.8.8 結構化文本壓縮

6.9 趨勢和研究問題

6.10 文獻討論

第7章 查詢:語言及屬性

7.1 查詢語言

7.1.1 基於關鍵詞的查詢

7.1.2 非關鍵詞查詢

7.1.3 結構化查詢

7.1.4 查詢協議

7.2 查詢屬性

7.2.1 Web查詢的特徵

7.2.2 用戶搜索行為

7.2.3 查詢意圖

7.2.4 查詢主題

7.2.5 查詢會話與任務

7.2.6 查詢難度

7.3 趨勢和研究問題

7.4 文獻討論

第8章 文本分類

8.1 介紹

8.2 文本分類的特性描述

8.2.1 機器學習

8.2.2 文本分類問題

8.2.3 文本分類算法

8.3 無監督算法

8.3.1 聚類

8.3.2 樸素文本分類

8.4 監督算法

8.4.1 決策樹

8.4.2 k近鄰分類器

8.4.3 Rocchio分類器

8.4.4 概率樸素貝葉斯文檔分類

8.4.5 支持向量機分類器

8.4.6 集成分類器

8.4.7 關於監督算法的結束語

8.5 特徵選擇或降維

8.5.1 項-類別出現列聯表

8.5.2 索引項文檔頻率

8.5.3 TF-IDF權重

8.5.4 互信息

8.5.5 信息增益

8.5.6 卡方檢驗

8.5.7 特徵選擇的作用

8.6 評價指標

8.6.1 列聯表

8.6.2 準確率和錯誤率

8.6.3 精度和召回率

8.6.4 F測度和F

8.6.5 交叉檢驗

8.6.6 標準文檔集

8.7 類別組織--構建分類體系

8.8 趨勢和研究問題

8.9 文獻討論

第9章 索引和搜索

9.1 介紹

9.2 倒排索引

9.2.1 基本概念

9.2.2 完全倒排索引

9.2.3 搜索

9.2.4 排序

9.2.5 構建

9.2.6 壓縮的倒排索引

9.2.7 結構化查詢

9.3 文件

9.4 後綴樹和後綴數組

9.4.1 結構:trie樹和後綴樹

9.4.2 簡單字符串搜索

9.4.3 複雜模式的搜索

9.4.4 構建

9.4.5 壓縮的後綴數組

9.5 序列搜索

9.5.1 簡單字符串:Horspool

9.5.2 複雜模式:自動機和位並行

9.5.3 更快的位並行算法

9.5.4 正則表達式

9.5.5 多重模式

9.5.6 近似搜索

9.5.7 搜索壓縮文本

9.6 多維索引

9.7 趨勢和研究問題

9.8 文獻討論

0章 並行與分布式信息檢索

10.1 介紹

10.2 分布式信息檢索系統的分類

10.3 數據劃分

10.3.1 文檔集劃分

10.3.2 文檔集選擇

10.3.3 倒排索引劃分

10.3.4 劃分其他索引

10.4 並行信息檢索

10.4.1 介紹

10.4.2 在MIMD架構上的並行信息檢索

10.4.3 在SIMD架構上的並行信息檢索

10.5 基於集群的信息檢索

10.6 分布式信息檢索

10.6.1 介紹

10.6.2 索引

10.6.3 查詢處理

10.6.4 Web問題

10.7 聯合搜索

10.8 在對等網絡中的檢索

10.9 趨勢和研究問題

10.10 文獻討論

1章 Web檢索

11.1 介紹

11.2 一個有挑戰性的問題

11.3 Web

11.3.1 特性

11.3.2 Web圖的結構

11.3.3 對Web建模

11.3.4 鏈接分析

11.4 搜索引擎架構

11.4.1 基本架構

11.4.2 基於集群的架構

11.4.3 緩存

11.4.4 多級索引

11.4.5 分布式架構

11.5 搜索引擎排序

11.5.1 排序信號

11.5.2 基於鏈接的排序

11.5.3 簡單的排序函數

11.5.4 排序學習

11.5.5 學習排序函數

11.5.6 質量評價

11.5.7 Web垃圾

11.6 管理Web數據

11.6.1 為文檔分配標識符

11.6.2 元數據

11.6.3 壓縮Web圖

11.6.4 處理重複數據

11.7 搜索引擎用戶交互

11.7.1 搜索矩形範式

11.7.2 搜索引擎結果頁面

11.7.3 培養用戶

11.8 瀏覽

11.8.1 扁平瀏覽

11.8.2 結構導向的瀏覽和Web目錄

11.9 瀏覽之外

11.9.1 超文本和Web

11.9.2 搜索與瀏覽相結合

11.9.3 Web查詢語言

11.9.4 動態搜索

11.10 相關問題

11.10.1 計算廣告學

11.10.2 Web挖掘

11.10.3 元搜索

11.11 趨勢和研究問題

11.11.1 靜態文本數據之外

11.11.2 目前的挑戰

11.12 文獻討論

2章 Web爬取

12.1 介紹

12.2 網絡爬蟲的應用

12.2.1 通用Web搜索

12.2.2 聚焦爬取

12.2.3 Web刻畫

12.2.4 鏡像

12.2.5 網站分析

12.3 爬蟲的分類體系

12.4 架構和實現

12.4.1 爬蟲架構

12.4.2 實際問題

12.4.3 並行爬取

12.5 調度算法

12.5.1 選擇策略

12.5.2 重訪問策略

12.5.3 友好策略

12.5.4 組合策略

12.6 評價

12.6.1 評價網絡使用

12.6.2 評價長期調度

12.7 趨勢和研究問題

12.7.1 爬取「暗網」

12.7.2 在網站幫助下的爬取

12.7.3 分布式爬取

12.8 文獻討論

3章 結構化文本檢索

13.1 介紹

13.2 結構化能力

13.2.1 顯式和隱式結構對比

13.2.2 靜態與動態結構對比

13.2.3 單一層次結構與多層次結構對比

13.3 早期文本檢索模型

13.3.1 基於非覆蓋列表的模型

13.3.2 基於相鄰結點的模型

13.3.3 結構化文本結果排序

13.4 XML檢索

13.4.1 XML檢索中的挑戰

13.4.2 索引策略

13.4.3 排序策略

13.4.4 去除重疊

13.5 XML檢索評價

13.5.1 文檔集

13.5.2 主題

13.5.3 檢索任務

13.5.4 相關性

13.5.5 測度

13.6 查詢語言

13.6.1 特性

13.6.2 XML查詢語言分類

13.6.3 XML查詢語言樣例

13.7 趨勢和研究問題

13.8 文獻討論

4章 多媒體信息檢索

14.1 介紹

14.1.1 什麼是多媒體

14.1.2 多媒體檢索

14.1.3 文本檢索與多媒體檢索的對比

14.2 挑戰

14.2.1 語義鴻溝

14.2.2 特徵歧義性

14.2.3 機器生成的數據

14.3 基於內容的圖像檢索

14.3.1 基於顏色的檢索

14.3.2 紋理

14.3.3 顯著點

14.4 聲音和音樂檢索

14.4.1 指紋識別

14.4.2 語音識別

14.4.3 說話人識別

14.4.4 語音文檔檢索

14.4.5 音頻基礎知識

14.5 檢索和瀏覽視頻

14.5.1 視頻摘要

14.5.2 靜態摘要

14.5.3 圖像拼接與跳躍劇照

14.5.4 動態摘要

14.5.5 交互式摘要

14.5.6 視覺與聽覺瀏覽對比

14.5.7 摘要評價

14.6 融合模型:合併所有信息

14.6.1 人臉命名

14.6.2 圖像命名

14.6.3 音頻命名

14.6.4 結合音頻與視頻的音-視頻語音識別

14.6.5 結合音頻和視頻的多媒體處理

14.7 分割

14.7.1 視頻分割樣例

14.7.2 視頻分割方案

14.7.3 利用邊緣的視頻分割

14.7.4 語音分割

14.7.5 分割評價

14.8 壓縮和MPEG標準

14.8.1 強度和採樣

14.8.2 顏色

14.8.3 有損壓縮

14.8.4 無損壓縮

14.8.5 時間冗餘

14.8.6 運動預測

14.8.7 MPEG標準

14.9 趨勢和研究問題

14.10 文獻討論

5章 企業搜索

15.1 介紹

15.1.1 企業搜索的特點和應用

15.1.2 企業搜索軟件

15.1.3 工作場所搜索

15.2 企業搜索任務

15.2.1 搜索支持任務的例子

15.2.2 搜索類型

15.2.3 研究企業搜索

15.3 企業搜索系統的結構

15.3.1 收集

15.3.2 提取

15.3.3 索引

15.3.4 文本注釋的索引

15.3.5 查詢處理

15.3.6 搜索結果的展示

15.3.7 安全模型

15.3.8 聯合/元搜索

15.4 企業搜索評價

15.4.1 企業搜索的公開測試集

15.4.2 企業搜索內部評價

15.4.3 企業搜索調試

15.4.4 所能期待的是什麼

15.5 不滿意的可能原因

15.6 情境化和個性化

15.6.1 情境化的控制和工具

15.6.2 情境化:本地、企業或全球

15.6.3 輪廓的隱私

15.6.4 定義、建立和維護輪廓

15.6.5 用戶建模

15.6.6 隱式評價

15.6.7 信息過濾

15.6.8 社會化推薦系統

15.7 趨勢和研究問題

15.8 文獻討論

6章 圖書館系統

16.1 圖書館的信息環境

16.2 聯機公共檢索目錄

16.2.1 OPAC和書目記錄

16.2.2 來自ILS的信息檢索

16.2.3 混合圖書館的整合

16.2.4 OPAC和最終用戶

16.2.5 ILS:供應商和產品

16.3 信息檢索系統與文檔數據庫

16.3.1 書目和全文數據庫

16.3.2 數據庫記錄的內容

16.3.3 聯機產業:數據庫供應商

16.3.4 來自文檔數據庫的信息檢索

16.4 組織機構內部的信息檢索

16.5 趨勢和研究問題

16.6 文獻討論

7章 數字圖書館

17.1 介紹

17.2 定義數字圖書館

17.3 通用架構

17.4 基本概念

17.4.1 數字對象和館藏

17.4.2 元數據和目錄

17.4.3 資源庫/檔案庫

17.4.4 服務

17.5 社會經濟問題

17.5.1 社會問題

17.5.2 經濟問題

17.6 軟件系統

17.6.1 Greenstone

17.6.2 Eprints

17.6.3 DSpace

17.6.4 Fedora

17.6.5 ODL

17.6.6 5S套件

17.7 數字圖書館案例研究

17.7.1 聯網學位論文數字圖書館

17.7.2 國家科學數字圖書館

17.7.3 ETANA-DL考古數字圖書館

17.8 趨勢和研究問題

17.8.1 評價

17.8.2 集成

17.8.3 其他研究挑戰

17.9 文獻討論

附錄A 開源搜索引擎

附錄B 作者簡介

參考文獻

索引

參考文獻