ciniicinii books books紹介...ciniicinii books books紹介...

16
CiNii CiNii Books Books紹介 紹介 NACSIS NACSIS CAT CATの正規化処理 の正規化処理 NACSIS NACSIS-CAT CATの正規化処理 の正規化処理 国立情報学研究所 学術基盤推進部 学術コンテンツ課 学術基盤推進部 学術コンテンツ課 藤井 眞樹 平成24年3月1日

Upload: others

Post on 10-Aug-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

  • CiNiiCiNii BooksBooks紹介紹介NACSISNACSIS CATCATの正規化処理の正規化処理NACSISNACSIS--CATCATの正規化処理の正規化処理

    国立情報学研究所学術基盤推進部 学術コンテンツ課学術基盤推進部 学術コンテンツ課

    藤井 眞樹

    平成24年3月1日

  • CINII BOOKS 紹介

    22

  • 1.1 CiNii Books – 大学図書館の本を探す

    http://ci.nii.ac.jp/books/

    2011年11月9日リリース2011年11月9日リリ ス

    NACSIS-CAT書誌所蔵データの検索・表示サービス書誌1100万件・所蔵1億1千万件参加館1200館以上著者 約150万件ウェブAPIの提供ウ 提供

    -外部サイトからNACSIS-CATのデータを利用可能に

    NACSIS Webcatの後継3

    平成24年度末(2013年3月)に終了予定 3

  • 1.2 コンセプト,設計方針ト,設計方針

    NACSIS-CATシステムとの分離モジュール化・軽量化モジュ ル化・軽量化

    クラウド対応可→業務継続計画への対応

    ユーザーインターフェイスCiNii Articlesと同等,一般のユーザーのためのデザイン

    CATデータの活用著者名典拠著者名典拠

    書誌のNOTEなども検索可能に

    図書館との連携図書館システム連携

    ILLに有用な情報 提供 4ILLに有用な情報の提供 4

  • 1.3 検索検索

    詳細検索画面

    地域,機関ID,図書館ID(参加組織番号)での検索可能件名 分類 注記 資料種別 言語件名・分類・注記・資料種別・言語

    所蔵からのOPACリンクILL関連(所蔵館の地域での絞り込み ILL参加 相殺参加ILL関連(所蔵館の地域での絞り込み,ILL参加,相殺参加,日米ILL,日韓ILL参加での絞り込み)部分一致検索。タイトルの完全一致で検索したい場合は, 5「タイトル完全一致」をチェック。(2012年2月改修)

    5

  • 1 3 検索1.3 検索

    図書館ID(参加組織番号)での検索

    66

  • 1 3 検索1.3 検索

    OPACリンク

    77

  • 1 4 著者名典拠1.4 著者名典拠

    著者URIとしての公開生年・没年等は削除

    書誌検索との統合

    CiNii Books

    NACSIS-CAT

    88

  • 1 5 今後の開発1.5 今後の開発

    小回りのきく開発小回りのきく開発公開以降(約4か月間)の改修

    詳細検索による必須項目をなくし,分類,件名,注記のみでも検索可能に

    図書詳細画面において,件名,分類からの再検索のリンクを追加

    所蔵館一覧を図書館名称の五十音順ソートに

    図書館略称と機関IDの項目追加詳細検索での分類指定で,前方一致検索が可能に

    IDENTのリンク表示タイトルの完全一致,前方一致検索(サブタイトルは除く)イト 完 致,前方 致検索(サ イト は除く)

    VOLが複数ある場合の所蔵の表示の変更ISBD形式での書き出し

    等々

    9

    等々

    フィードバック

    Twitter9

    多言語

  • NACSIS-CATの正規化処理

    1010

  • 2.1 特殊文字・特殊言語資料に関する取扱い及び2.1 特殊文字 特殊言語資料に関する取扱い及び解説,コーディングマニュアル抜粋集の公開

    2011年12月「特殊文字 特殊言語資料に関する取扱い及び2011年12月「特殊文字・特殊言語資料に関する取扱い及び解説,コーディングマニュアル抜粋集」の公開

    これまでに規則が定められた文字・言語「以外」の特殊文字・これまでに規則が定められた文字 言語「以外」の特殊文字言語を対象(日本語および英語等のラテン文字以外)とする。

    これまでに個別の規則が定められたもの=中国語,韓国・朝鮮語,アラビア文字 タイ文字 デーヴァナーガリー文字字,タイ文字,デ ヴァナ ガリ 文字

    キリル文字,ギリシア語を含む

    内容転記の原則により,記述対象資料に表示されているままの字体を使用

    英米目録規則第2版(1988年改訂 1993年修正)を適用英米目録規則第2版(1988年改訂,1993年修正)を適用分かち書きはヨミフィールド(TRR,VTR,CWR)に記録翻字は,ALA-LC翻字表により,その他のヨミ(TRVR,VTVR,CWVR)フ ドに入力 11CWVR)フィールドに入力 11

  • ( 数字)半角 も全角 も

    2.2 NACSIS-CATにおける検索(アラビア数字)半角でも全角でも可

    (ラテン文字,ギリシア文字,キリル文字)大文字でも 小文字でも可 音標記号等の付加はなくても可文字でも可,音標記号等の付加はなくても可

    A À Á Â Ã Ä a à á â ã ä→インデクスではすべてAなので どれで検索してもよい→インデクスではすべてAなので,どれで検索してもよい

    (かな)ひらがなでもカタカナでも可

    (漢字)新字体でも旧字体でも可(漢字)新字体でも旧字体でも可

    漢字統合インデクス

    齋 斎 斉 斎齋 斎 斉 斎

    (記号)半角でも全角でも可,長音・ダッシュ・ハイフン・マイナス記号は入力してもしなくてもよい 12イナス記号は入力してもしなくてもよい 12

  • 2 3 NACSIS CATにおける正規化2.3 NACSIS-CATにおける正規化

    これまで公開された資料これまで公開された資料コーディングマニュアル付録2.2 正規化処理NACSIS-CAT/ILLニュースレター(追加が生じた際に掲載)NACSIS CAT/ILL タ (追加が生じた際に掲載)→アラビア文字については13号(2003.12.19)に掲載

    漢字統合インデクス

    ★全体を 覧できる資料は公開されていなか た★★全体を一覧できる資料は公開されていなかった★

    「NACSIS-CATにおける正規化処理について」NACSIS CATにおける正規化処理について」特殊言語・特殊文字資料の取扱いで言及

    平成23年度末公開予定正規化の原則と具体的な一覧を公開

    実際のシステム改修は,2012年6月~7月頃の予定1313

  • 2 3 NACSIS CATにおける正規化処理に いて2.3 NACSIS-CATにおける正規化処理について

    ① 大文字と小文字のそれぞれに個別の ドが割り当てられ① 大文字と小文字のそれぞれに個別のコードが割り当てられているものは正規化する。

    例例:

    今回追加の対象となるのはグルジア文字,アルメニア文字,ギリシア文字(一

    部),キリル文字(一部),コプト文字(一部),グラゴル文字,デザート文字

    ※音標記号等の付加されたものは、付加されないものに揃え,

    デ 大文字化すインデクスでは大文字化する。

    A À Á Â Ã Ä a à á â ã ä A1414

  • 2 3 NACSIS CATにおける正規化処理に いて2.3 NACSIS-CATにおける正規化処理について

    ② 同じ形の文字に複数の文字コードが割り当てられているも② 同じ形の文字に複数の文字 ドが割り当てられているものは正規化する。

    例:CJK Compatibility Ideographs③ 複数の要素によって構成されている文字であって,個別の

    要素と文字全体についてそれぞれ文字コードが割り当てられているものは正規化するているものは正規化する。

    例:0BCA ெ◌ா Tamil Vowel Sign O ← 0BC6 ெ◌ + 0BBE ◌ா

    0A59 ਖ਼ Gurmukhi Letter Khha ← 0A16 ਖ + 0A3C ◌਼④ 数字については,アラビア数字での検索を可能とする。

    アラビア文字の数字「 ٠١٢٣٤….」は表示も「01234…」その他(タイ文字,デーヴァナーガリ文字)の数字は表示は

    そのままで 検索(インデクス作成)は「01234 」 15そのままで,検索(インデクス作成)は「01234…」 15

  • 2 3 NACSIS CATにおける正規化処理に いて2.3 NACSIS-CATにおける正規化処理について

    【その他関連の問題】【その他関連の問題】

    アラビア文字「アリフ(ハムザ)」および「アイン」の翻字形アラビア文字のカーフ「U+0643」と「U+06A9」アラビア文字のカーフ「U+0643」と「U+06A9」チベット文字の翻字

    チベット語における分かち書き ツェクの取扱いチベット語における分かち書き,ツェクの取扱い

    引用符「'」「"」記号「~」記号 」

    アラビア語と他言語とが混在する場合、キーワードが正しく作成されない?

    等々

    1616