Builing A Digital Library : A Technology Manager’s Point of View

 

一、前言

 Historic Pittsburgh Project的個案研究來舉例說明,當著手進行一項數位圖書館計劃時,要注意的因素包括:

1.      提出使用者需求

2.      決定機構內基礎建設的內容評估

3.      技術的取得

4.      經費的來源

 二、計劃的描述

    Historic Pittsburgh Project(歷史上的匹茲堡計劃) http://digital.library.pitt.edu/pittsburgh 是匹茲堡大學,大學圖書館系統(University Library System (ULS))委託其成員單位--數位研究圖書館(Digital Research Library (DRL))進行的一項數位館藏計劃。

  1. 提供在網路上研究探討匹茲堡及環西賓州的歷史
  2. 集合了匹茲堡大學及西賓州歷史學會(Histrical Society of Western Pennsylvania(HSWP)的歷史資料。
  3. 網站內容包括館藏全文檢索、使用說明、地圖、年表、19世紀的戶口普查資料及歷史學會的館藏目錄。
  4. 運用SGML將文字轉譯成電碼,以CGI的方式在網路上顯示。
  5. 遵循密西根大學發展 “Making of America”計劃的經驗模式。
  6. 地圖是運用MrSid軟體,可放大觀看。

 三、匹茲堡大學現有基礎資源

1.      ULS是最早以SGML來轉譯成電子本文的先驅,但大部分實驗都失敗,直到1997年人事變動,留下從事資訊科技及電子本文的人才。

2.      獲授權使用Open Text SGML 搜尋引擎,開使對牛津字典及Chadwych-Healy的資料庫進行轉碼。

3.      圖書館資訊系統部門引進UNIX系統。

4.      1997年八月ULS受匹茲堡大學委託將發圖書館計劃。

5.      1998年春天經由ULS評選,由Digital Research Library (DRL)出線負責此計劃。

四、選擇一個可行的示範計劃

ULS HSWP擁有西賓州數以千計的圖書及期刊,數以百計的檔案收藏以及百萬計的照片、地圖及歷史文件。為研究需要,這些歷史資料需以不同的型式數位化。研究小組開始尋求有效的軟、硬體及數位化技術。重新分配現有資源,以最少的投資完成此項計劃。

 五、非內容的考量因素

以下幾點考量會影響進行數位化時資料的選擇:

1.      成本/內容要平衡 :以合理的成本提供最大量的內容

2.      非專屬獨一的資料格式及開放性標準:可適用在各種平台,不會因軟體系統過時而失效。

3.      最高品質的資料:Data Capture費用貴但品質較好,重新掃瞄或重新keying成本高,期待有更好的資料獲取方法。

4.      Metadata的取得:以現成的metadata(MARC記錄),可降低成本。

5.      系統的可靠性(Reliability)及彈性(Scalability):可處理大量的資料,並可被其它單位運用來處理自己計劃。

6.      透過數位化後新增的功能:可檢索、搭配不同的資料、提供新的連結。

7.      原始資料的保存:若在數位化過程中會破壞原始資料,DRL會保存一份原始資料的複本。

8.      廣泛的檢索:低頻寬、只要透過瀏覽器即可檢索。

六、全文收藏方式的選擇

DRL比較以全文文字傳遞與全文影像之比較,將印刷紙本館藏要轉換成機讀格式,若是重新keying的成本要高出二、三倍,且有些攝影照片、素描、版畫將失去原貌。若以全文影像則無法作書中內文檢索。為解決此一兩難問題,密西根大學在其發展”Making of America (MOA) ” 計畫時,發展一套以影像掃瞄及OCR技術複合式的方法,來處理歷史資料的數位化。MOA 計劃提供檢索1600種圖書及期刊,主要是以OCR的技術使其能夠作全文檢索,OCR的成本比Keying要少的多。MOA 的中介物 (Middle-ware)從開始時的SGML Server program (SSP),到現在的Digital Library Extension Service (DLXS) DRL 還請MOA的專家提供技術上的專門知識支援 歷史上的匹茲堡計劃

MOA 模式大部分都符合前面所提已被公認重要的非內容考量因素:

1.      成本 / 內容平衡

影像及OCR複合式的處理,能夠以比KeyingSGML轉譯編碼更少的成本,讓更多的資料上網。

2.      非專屬的資料格式和開放式標準

沒有特殊專屬的資料格式,因為”Middle-ware”是利用 SGML (ASCII text)及廣泛利用TIFF影像格式。

3.      Best practices最佳的實踐(進行)

600 dpiTIFF影像,是最好的數位化影像。

4.      Metadata 的取得

資料的選擇從HSWPULS的線上目錄中取得MARC資料。

5.      系統的穩定度及可量測性

MOA擁有650,000影像資料,比Historic Pittsburgh Project250,000還要多且穩定。

6.      附加的功能

OCR作書中章節內文的檢索。

7.      原件的可保存

用無酸性的重製品。

8.      廣泛檢索

MOA只要透過瀏覽器即可檢索。

 七、從前導計劃到產品化

花費二到三年的時間,將500本書數位化。

1.      Metadata的取得及資料的校對。

提供目次的資訊及每一本書逐頁對照其重要的文獻結構,並以SGML自動編碼轉譯成電子文本。

2.      掃瞄,將超過500本的書掃瞄成數位化影像。

3.      品質控制控管。

4.      本文的OCR

5.      資料線上檢索的準備。

 八、Historic Pittsburgh Project(歷史上的匹茲堡計劃)的經驗可供學習之處:

1.      資料結構的一致性與完整性:易於以SGML自動編碼轉譯及OCR的處理。

2.      DRL人員間的緊密合作:處理過程中,技術人員可發展自動化的方式來處理一些單調乏味的工作。共同開發資料擷取的方法。

3.      成本及品質的損益平衡。

4.      中間過程的不斷修正。使其更有效率及具彈性。

5.      檢索及顯示的平衡 (Tradeoffs):方便檢索又要不失其原貌。

6.      建立在別人的經驗上:參考其它的數位圖書館計劃,如國會圖書館的國家數位圖書館計劃(American Memory from the Library of Congress)維吉尼亞大學電子本文中心(Electronic Text Center -- University of Virginia Library)及柏克萊大學數位圖書館SunSITE(Berkeley Digital Library SunSITE)

 

 

Ohio Memory Celebrates Ohio History

In March 2003 Ohio celebrates 200 years of statehood.  In celebration of the
Bicentennial, the Ohio Memory Project has been working to create the Ohio
Memory Online Scrapbook, available at: http://www.ohiomemory.org

Nearly 20,000 images are now available, representing 2200 collections from
archives, museums, historical societies, and libraries throughout Ohio.
Materials include photographs, documents, natural history specimens,
prehistoric artifacts and three-dimensional objects from 320 cultural
institutions.  The collections document important milestones in Ohio's
history, such as the signing of the Treaty of Greenville and the Wright
Brothers' first flight, and document the lives of Ohioans such as Thomas
Edison and Annie Oakley.  Other collections, such as prehistoric artifacts,
handmade quilts and family letters offer glimpses into the everyday lives of
past generations of Ohioans.  Ohio Memory acts as a single point of access
to diverse collections, bringing together items such as the 1803
Constitution (Ohio Historical Society) and the table upon which it was
signed (Ross County Historical Society).

Users can search or browse by institution name, resource type, title,
subject, creator, or place. A noteworthy feature of the Ohio Memory web site
is "My Scrapbook," which allows users to store favorite items and add
captions or notes, and then share with others.