Blog

CA2004 -Long -term preservation of PDF files in Japanese institution repositories and accessibility / Teru Agata, Yosuke Miyata, Jun Ikeuchi

PDF file

カレントアウェアネスNo.349 2021年09月20日

CA2004

日本の機関リポジトリにおけるPDF fileの長期保存とアクセシビリティ

Aida Univercityty FAh Culty of International Relations: Teru Agata (Agata Univercityty) FAh Culty of Letters: Yosuke Miyata Univercityty of Tsukuba Library Information Media: Jun Ikeuchi (Atsushi Ikeuchi)

1. はじめに

 学術情報流通においてオープンアクセス環境が進展し、多くの研究成果がウェブ上においてPDF形式で公開されるようになっている。オープンアクセスを実現する手段にはオープンアクセスジャーナルなどさまざまなものがあるが、その一つの手段として機関リポジトリがある。機関リポジトリは、大学や研究機関において組織に属する研究者による研究成果を公開するためのサービスであり、日本において2020年9月時点で700件近く設置運用されている(1)

 Many of the Ah Cademic papers registered in the engine repocitytory are created in PDF format.PDF (Portable Document Format) is a file format that can be displayed and printed without relying on devices and OSs, and can maintain the layout of documents, so it has high affinity with paper documents, not only text information, but also images.It is widely used as a document format on the network because it supports multimedia such as and the fAh Ct that security levels can be set freely.The following four points are important in aiming for the appropriateness of PDF from the perspective of long -term preservation and Ah Ccescitybility.

 PDF形式の規格の一つであるPDF/Aは、ISO 19005(2)として国際規格となっており、たとえば、米・スミソニアン協会アーカイブの文書保存ガイドライン(3)をはじめとして、PDF fileの長期保存に適した規格として推奨されている(4)。同規格では、要求要件や禁止要件などの仕様が厳密に定められており、メタデータやフォントを埋め込むことによって、将来的にもレイアウトなどが変わらず表示できるようになっている。また、PDF/UAはユニバーサルアクセシビリティ(Universal Accescitybility)、つまり視覚障害者などであってもアクセスしやすいPDF形式の規格といえる。文書構造などをメタデータに埋め込むことが定められており、ISO 14289(5)として国際規格となっている。

 PDF fileを公開する際にあまり意識されていないことであるが、長期保存やアクセシビリティの視点から重要なのは、そのファイルを暗号化せず、正確なメタデータを持たせることである。暗号化と不適切なメタデータは、文書のアクセス性と検索性を低下させる可能性がある。例えば、不用意にセキュリティレベルを上げることで、文字の機械的な抽出が行えず、視覚障害者が文書を利用できないといった問題も起こり得る。

 また、PDF作成ソフトの中にはPDFの仕様に合致しない不適切なファイルを作成するものがあることが指摘されており、PDF fileの品質が均一ではないことが海外の調査で明らかになっている(6)。Termensらは、スペインの2つの機関リポジトリでファイルタイプとPDFのセキュリティを調査し、多くのPDF fileが暗号化されていることを明らかにした(7)。この調査では調査対象が2つの機関リポジトリであるが、ファイルの取り扱いに異なる傾向が見られた。

 PDF fileの問題として、埋め込まれたメタデータが不適切である場合もある。例えば、PDF fileを対象にした検索サービスではPDF fileのメタデータをPDF fileとは別に登録する場合もあるが、PDF fileに埋め込まれたメタデータを抽出して、それらをインデックスに登録する場合もある。後者のようなサービスでは埋め込まれたメタデータが実際のコンテンツと異なる場合、検索ができなくなる問題が生じてしまう。また、PDF fileに埋め込まれた作成者に関するメタデータが査読の匿名性を暴いてしまう問題を引き起こすことがある。そこで応用数理学会(Society for Industrial and Applied Mathematics:SIAM)は、査読における個人情報保護に関するガイドラインを発表しており、その中でPDFに含まれる個人情報を削除する手順を示している(8)

 このようなPDF fileがウェブ上で公開された場合、公開されたメタデータとPDFに埋め込まれたメタデータの違いにより、混乱が生じる可能性がある。そこで、筆者らは日本の機関リポジトリにおけるPDF fileの現状を明らかにし、PDF fileの保存性の問題の解決策を検討することを目的とした調査を行った。

 本稿ではその結果を紹介する。なお、本稿はiPRES2019での発表を再構成したものである(9)

2. 調査手法

 日本の機関リポジトリのPDF fileの収集と分析は以下のように行った。

2.1 メタデータの収集

 In February 2019, metadata was collected from 582 engine repocitytories via OAI-PMH's listCords.All metadata is a juNII2 format prepared for JAIRO (at the time of the survey), an integrated search system for Japanese institutional repocitytories.This format contains a "FullTexturl" element indicating the URL of the full -text file.Collected 2,103,600 metadata, of which 1,556,390 had a full -text file URL.It is 74 % of the metadata registered in JAIRO at the time.

2.2 PDF fileの収集

 メタデータ・レコードを収集した後、PDF fileを収集した。2.I extrAh Cted 1,556,390 URLs from metadata downloaded in 1 and tried all of them.The downloaded files were 1,589,767, and the identification information of the file headers found that most of them were PDFs, but they also included file formats other than PDF.

2.3 PDF fileの分析

 PDF fileを操作できるJava版のiText 7.1.0ライブラリを用いて、ダウンロードできたPDF fileから、セキュリティ情報などのメタデータを抽出した。なお、PDF fileの中には、不正な文字列が含まれているなどの理由で、PDFとして解析できなかったファイルもあった。最終的に、141万1,082件のPDF fileを解析した。表1に、収集したファイルの基本統計を示した。

表1 PDF fileの基本統計

3. 調査結果

 日本の機関リポジトリで公開されたPDF fileのうち、電子文書の長期保存に特化したPDF/Aに準拠したものは、表2でまとめたように、0.It was 9 %, and it turned out that it was very small.There are 9 more compliant with PDF/UA (0).It was 0006 %), and it turned out that there was almost no file with this format.Overall 11.2%はタグ付き(構造化)PDF fileで、視覚障害者が読み上げソフトを使用する際に、利用しやすいものとなっていたが、こちらへの対応も全体から見ると少ないと指摘できる。

 As shown in Table 3, 30.5%のPDF fileが暗号化されていた。暗号化設定のうち「印刷を許可しない」設定は、印刷して読みたい読者の読み方を制限する意味で完全なオープンアクセスといえるかは疑問が残る。また「スクリーンリーダーを許可しない」の設定は、視覚障害者がPDF fileからテキストを抽出することを妨げるため、合理的配慮をしていないといえる。また、暗号化されたPDF fileは、パスワードが明らかでない場合、将来的に新たなPDF形式や他のファイル形式に変換することができないという点で長期保存に向かないといえる。

 PDF fileはかならずしも機関リポジトリからダウンロードされる訳ではなく、メタデータと切り離して配布・流通することも想定される。その場合、PDF file自身に十分かつ正確なメタデータが埋め込まれていることが望ましい。しかし、表4で示したように、多くのPDF fileは「文書情報」部分に必要なメタデータが埋め込まれていなかった(埋め込まれていたのは、作成者が48.9 %, the title 17.9 %, keyword 1.Five%).35 PDFs are embedded in the creator's metadata in XMPMETADADATA (Extencityble Metadata Platform Metadata), which is the expanded metadata area..7%だった。メタデータに登録されていたPDF作成ソフト名に関しては、Helinらの先行研究(10)の結果と同様に、さまざまなものが使用されていることがわかった。メタデータが埋め込まれていたとしても、そのメタデータで作成者、タイトルおよび責任表示の誤っていたものも確認された。PDF fileの中には、学会などが論文投稿用に配布した元のテンプレートファイルのメタデータが実際の作成者によって更新されず、そのまま残っているものもあった。一方で、管見の限りであるが、Elsevier社のような学術的な商業出版社が作成したPDF fileには、メタデータの多くの項目に正確な情報が多い印象を受けるのとは対照的であった。

表2 PDF fileの種類

表3 PDF fileのセキュリティ設定

表4 PDF fileに埋め込まれたメタデータ

4. まとめ

 今回行った調査の結果から、日本の機関リポジトリにおいて公開されたPDF fileについては、(1)PDF/Aという長期保存に適した規格で作成されたPDF fileはほとんどなかったこと、(2)30.5%のPDF fileが暗号化されており、アクセシビリティの視点から問題があり、将来的に他の形式への変換が阻害されていること、(3)多くのPDF fileは、機関リポジトリのメタデータから独立して流通する際の十分なメタデータが埋め込まれていなかったこと、の三点が明らかになった。

CA2004 - 日本の機関リポジトリにおけるPDF fileの長期保存とアクセシビリティ / Teru Agata, Yosuke Miyata, Jun Ikeuchi

 上記の結果から日本の機関リポジトリに含まれるPDF fileの多くは、長期保存やアクセシビリティの視点からはさまざまな問題を抱えているといえる。オープンアクセスを実現するために機関リポジトリで組織に所属する研究者の研究成果をPDF fileとして公開する場合に、単に受け取ったPDF fileを置くだけでは十分とは言えない。長期保存やアクセシビリティを保障するためには、個々のPDF fileについて、PDF/Aの規格に準拠したファイルとすること、不必要なセキュリティを設定しないこと、機関リポジトリにメタデータを登録するだけでなく正確で十分なメタデータをPDF file自身に埋め込むことなどが重要だといえる。

 学術文献のアクセシビリティについては「視覚障害者等の読書環境の整備の推進に関する法律」(CA1974参照)を実現するための「視覚障害者等の読書環境の整備の推進に関する基本的な計画」(E2307参照)(11)においていくつかの指摘がされている。まず、「〔全国の大学及び高等専門学校の附属図書館が保有するアクセシブルな書籍等の所在情報を共有するための〕リポジトリやデータベース等で公開される学術論文等について、視覚障害者等のアクセシビリティの向上に努める(括弧内筆者)」とある。また、「国立国会図書館において、学術文献の録音資料やテキストデータの製作を促進する」という記述に基づき、国立国会図書館が学術文献の視覚障害者等用テキストデータの図書館等からの製作依頼の受付を開始した(12)。また、点字図書館や一部の公共図書館でもテキストデータの製作を行っている。ただし、OCR(光学文字認識)での抽出には精度の問題があり、校正作業でのコストがかかることからOCRをせずともPDF fileからテキストデータが直接的に抽出できる状態での公開が望ましい。視覚障害者等の読書環境の整備は国として推進している施策であり、今後ますます重要になってくると予想される。

(1) "List of institutional repocitytories".Academic institution repocitytory construction cooperation support project.https: // www.NII.Ah C.JP/IRP/List/, (see 2021-07-08).

(2) ISO 19005-1: 2005.Document Management — Electronic Document File File FORMAT FORMAT FORMAT FORMAT FORMAT FORMAT FORMAT FORMAT FILE FORMAT FORMAT FILE FORMAT FORMAT FILE LORMAT FILE FORMAT FILE FORMAT FORMAT FORMAT FORMAT FILE FORMAT FILE FORMAT FORMAT FILE FORMAT FILE FORMAT FORMAT FORMAT FILE FORMAT FILE LORMAT FILE PRESERVATION — PART 1: USE OF PDF 1.4 (PDF / Ah 1).https: // www.ISO.Org/Standard/38920.html, (Ah Ccessed 2021-07-08).

(3) “Recommeded Preservation Formats for Electronic Records”.SmithSonian Instituation Archives.https: //cityarchives.city.edu/what-we-do/digital-curation/recommended-preservation-formats-electronic-records, (Ah Ccessed 2021-05-08).

(4) Digital Preservation Team.PDF Format Preservation Assessment Part 2: PDF/A Profile.BL.2019-06-30.https: // wiki.dpconline.Org/Images/2/22/pdfa_assessment_v1.0.pdf#page=8, (Ah Ccessed 2021-07-08).

(5) ISO 14289-1: 2014. Document management applications — Electronic document file format enhancement for Ah Ccescitybility — Part 1: Use of ISO 32000-1 (PDF/UA-1).https: // www.ISO.Org/Standard/64599.html, (Ah Ccessed 2021-07-08).

(6) Helin, h.; Koivunen, k.; Kylander, j.Lehtonen, J.“402.2 pdf Mayhem: is Broken Really Broken? ".15th International Conference on Digital Preservation iPress 2018, Boston, USA, 2018-09-27, Central for Open Science.https: // doi.Org/10.17605/OSF.IO/FZXC9, (Ah Ccessed 2021-05-08).

(7) Termens, M.; Ribera, m.Locher, a. An analycitys of file format control in institutional repocitytories.Library Hi Tech.2015, VOL.33, No..2, P.162-174.

(8) "Protecting Referee Personal Information".Society for Industrial and Applied Mathematics.https: // www.cityam.org/Publications/Journals/Related/Journal-Policies/Detail/protecting-referee-personal-information, (Ah Ccessed 2021-05-08).

(9) Agata, T.MIYATA, Y.Ikeuchi, ah. “Long-term Preservation of Pdf Files in institutional Repocitytories in Japan”.16th International Conference on Digital Preservation iPress 2019, AMSTERDAM, The Netherlands.2019 Central for Open Science.https: // OSF.io/xrwzq/, (Ah Ccessed 2021-05-08).

(10) Helin.P.cit.

(11) "Basic plan on promoting the development of reading environment for visually impaired, etc.".Ministry of education.2020-07-14.https: // www.MEXT.Five.jp/b_menu/houdou/MEXT_00265.html, (see 2021-05-08).

(12) "We accept production requests from library, etc. of text data for visually impaired in academic literature.".National Diet Library.2021 -04-01.https: // www.NDL.Five.JP/JP/NEWS/FY2021/210401_02.html, (see 2021-05-08).

[Acceptance: 2021-08-10]


Teru Agata, Yosuke Miyata, Jun Ikeuchi. 日本の機関リポジトリにおけるPDF fileの長期保存とアクセシビリティ.Current Awarness.2021, (349), CA2004, P.9-11.https: // current.NDL.Five.jp/ca2004DOI:https: // doi.Org/10.11501/11727158

Agata TeruMiyata YosukeIkeuchi AtushiLong-term Preservation of PDF Files in Institutional Repocitytories in Japan

Hot Articles

How to Save Websites as PDF on iPhone or PC | Business Insider Japan

How to Save Websites as PDF on iPhone or PC | Business Insider Japan

Sign up for a free e-mail newsletter We'll send you a Business Insider Japan e-mail newsletter at 17:00 on weekdays. Check the terms of use You can save the website as a PDF from various web browsers including Safari on iPhone. Photo: Takuma Imamura Web page suddenly ...

READ MORE READ MORE
Yahoo! News Digitalizing the traditional "small pattern dyeing" pattern Crisis of disappearance, challenge of long-established president

Yahoo! News Digitalizing the traditional "small pattern dyeing" pattern Crisis of disappearance, challenge of long-established president

In the file in front of Mr. Atsushi Tomita, a well-preserved paper pattern is included so that it is not exposed to the air as much as possible. To prepare for digitization and prevent deterioration = Taken by Hiroyuki Kondo on the morning of December 10, 2021 at Tomita Dyeing Crafts in Shinjuku-ku, Tokyo ...

READ MORE READ MORE
 It's okay if you forget to record the news!How to see the famous scenes of the Olympics later on your smartphone

It's okay if you forget to record the news!How to see the famous scenes of the Olympics later on your smartphone

Explaining how to use the archive distribution The Tokyo Olympics attracts attention not only for players' play but also for unique commentary. Even if you miss it even though it became a hot topic, or if you did not record it, you can do it at your favorite timing later ...

READ MORE READ MORE