2008年10月29日

龍捲風科技MS中文搜尋系列 提供精準中文搜尋能力

龍捲風科技MS中文搜尋系列產品,完美解決微軟Microsoft Office SharePoint Server(MOSS)中文搜尋能力不足的問題,為微軟MOSS的大型企業客戶如台灣大哥大、趨勢科技等提供精準且完整的中文搜尋解決方案,解決大型企業用戶在大量使用中文資料時,搜尋不到精確資訊的困境。其中包含「龍捲風中文搜尋增益集」與「龍捲風OCR IFilter增益集」,可分別強化MOSS中文字詞的搜尋成效,並針對圖檔文件進行文字或屬性的擷取,建立索引並進一步進行檢索,同時提供符合中文搜尋特性的使用者介面,整合為一套完善的解決方案。

龍捲風科技產品經理徐忠毓表示:『從提供企業內容管理與協同合作的MOSS到 Microsoft Search Server,微軟在企業搜尋上都擁有相當完整的解決方案。但是在目前大量使用中文的企業環境中,在多數的資料都是中文呈現的方式下,卻因為中文字特有的形、音、義特徵,中文字的組合與定義,導致在企業搜尋上能力有所不足。MOSS的許多企業客戶,譬如像是國內首屈一指的防毒軟體廠商趨勢科技,以及電信業的龍頭代表台灣大哥大,均在利用MOSS進行中文檢索上,紛紛遭遇到中文搜尋找不到資料的窘態。』

龍捲風科技產品經理徐忠毓繼續說明:『中文是有長久歷史及文化的方塊文字,在許多特性上與拉丁語系有顯著的差異,而這些特性嚴重影響了MOSS的搜尋查詢效果。而「龍捲風中文搜尋增益集」,則可以顯著改善MOSS在中文搜尋能力上的不足,解決多數在中文搜尋中所遭遇的困難,提升MOSS中文搜尋的應用廣度與精準度。亦可以有效解決現今大幅使用中文資料的企業,最常遇到的資料明明有,卻搜尋不到的問題。「龍捲風中文搜尋增益集」也有效的解決了目前龍捲風企業客戶的問題,大幅地提升MOSS中文搜尋後的結果呈現,而這樣的結果對企業而言,是最迫切需要解決的最大問題。』

龍捲風科技產品經理徐忠毓另外補充:『另外,在針對紙本文件的搜尋,往往也是企業的頭痛問題。企業在做資料搜尋時,絕大部分只能找尋到電子資料,卻遺漏了紙本資料的搜尋結果,往往只能浪費更多的人力與時間去尋找,讓企業的營運效率更加低落。再者,中文字在OCR字元辨識上,由於方塊字體的複雜性,一般都只有60~70%左右的辨識率。因此在將紙本文件透過OCR轉換為可搜尋的數位內容時,往往會因為誤判而使得使用者無法搜尋到所需的資訊。針對上述所遭遇到的紙本文件搜尋的困難,「龍捲風OCR IFilter增益集」即可針對紙本資料進行有效率的搜尋。』

龍捲風MS中文搜尋系列產品包含三項特色:
一、精準的中文字詞搜尋:針對中文字形、音、義的特性,強化MOSS中文的檢索能力,提高中文字詞檢索與搜尋的精準度,讓搜尋效果更加倍。
二、強大的紙本資料辨識與搜尋:將紙本資料等圖形檔案進行文字或屬性的擷取並提供此資料以建立索引,待索引建立完畢後即可進行全文檢索,紙本資料的搜尋再也不漏失。
三、符合中文特性的人性化搜尋介面:提供符合中文搜尋特性的使用者介面,讓使用者不論是使用原本的搜尋機制與介面,或是使用龍捲風中文搜尋介面都能完整地搜尋到所需要的中文資料。
欲了解更多關於「龍捲風中文搜尋增益集」與「龍捲風OCR IFilter增益集」產品資訊,請至龍捲風科技網站http://www.tornado.com.tw 。

龍捲風中文搜尋增益集 功能特色
˙字詞搜尋彈性切換
拉丁文字由於詞與詞之間存有空白間隔,使得斷詞容易,但中文只有字而無詞的界線,因此斷詞效果的好壞往往取決於系統對詞彙的辨識能力與分析方式的精確度,相對也將影響到關鍵字所能查出的結果。龍捲風提供中文字詞彈性切換的方式,讓您在輸入字的同時也可找到詞,如:搜尋「蛙」可找到「青蛙」,此外也提供了準確的詞語搜尋能力,如:搜尋「個人電腦」不會找出「在電腦的世界中,每個人都是英雄」等意義不相關的句子。

˙中文同音功能
中文字有許多可相互替代的詞彙或同音字。如:【台灣vs.臺灣】、【壹貳參vs.一二三】、【受信vs.授信】等等。透過龍捲風內建的「中文同音字庫」,可順利解決使用者只知發音而不確定正確字彙,或是臨時忘記字的困擾。

使用龍捲風中文搜尋增益集後,原本因輸入錯誤的「一般受信」,也可被正確地以「一般授信」找到符合的資料。

˙中文同形容錯功能
中文字有許多看似相像但意義完全不同的字,如:【遠東 vs. 遠柬】、【掃描vs.埽描】。透過龍捲風內建的「中文同形字庫」,可順利解決使用者在透過輸入法或將傳真、紙本文件以OCR影像辨識後產生字形錯誤所帶來的困擾。

˙文件內文的語系識別
一般來說,當文件內容包含二種以上的語系時,為文件標上語系是很困難的,但若無法標上合適的語系則易產生斷詞上的漏失,這使得使用者在輸入字詞時可能有找不到資料的困擾。因此若能增強內文語系識別的能力,將會在搜尋完整性上發揮最佳的成效。

˙符合中文特性的人性化搜尋介面
依照中文搜尋特性與使用習性,龍捲風設計出一系列可自由置換的人性化搜尋介面,使用者可依照需求全系列使用或是自由組合搜尋介面,龍捲風提供的功能介面包括:
熱門關鍵字
將使用者所查詢的關鍵字記錄下來以統計熱門關鍵字,並可自訂熱門關鍵字的統計時間區間。
簡繁對譯
自動將使用者所輸入的關鍵字做簡體字和繁體字的轉換,供使用者再次利用轉換結果查詢。
輸入「警察」,轉換為「公安」。
輸入「光盘」,轉換為「光碟」。
建議詞
根據使用者輸入的關鍵字,提供其他建議的關鍵字。
概念延伸詞
以使用者輸入的關鍵字為基礎分別延伸出相關詞、同音詞、同義詞,並有相對頁面的呈現。
智慧型排序
通常大多數的使用者都期望看到具備自己輸入的關鍵字的搜尋結果能率先呈現。智慧型排序有別於傳統的排序方式,以使用者所輸入的關鍵字計算出每項搜尋結果的重要性依其排序。


龍捲風 OCR IFilter增益集 功能特色
˙Tornado OCR iFilter
搜尋引擎在建立索引時,將會透過Tornado OCR IFilter對圖形檔案進行文字或屬性的擷取並提供此資料以建立索引,待索引都建立完畢後,即可用搜尋引擎進行全文檢索。因此,只要透過Tornado OCR iFilter解析圖形檔案內的文字,並建立索引,就能讓大部份的圖形檔案資料得以納入全文檢索的範圍內。

Tornado OCR iFilter在MOSS中所扮演的角色

˙支援多種圖形檔案類型
OCR辯識支援PDF、BMP、JPEG、TIFF等四種檔案類型,Tornado OCR iFilter會擷取這些類型的檔案的文字部份,交給搜尋機制做建立索引之用。

˙支援數種語系辨識
OCR辨識時所採用的語系,可為「繁體中文」、「簡體中文」、「英文」三種,使用者可依所需自行設定語系,但請注意同時只能採用一種語系。

˙可指定OCR辨識後的文字編碼
進行OCR辨識時能依紙本文件語系指定經由OCR辨識得到的文字編碼,可為 GB、BIG5、JIS、S-JIS、GBK 或 KSC,但請注意一次只能採用一種語系。

沒有留言: