PDF関連の変更点

追加された行はこの色です。
削除された行はこの色です。
PDF関連へ行く。
PDF関連の差分を削除
#author("2024-02-25T15:47:41+09:00","default:irrp","irrp")
#author("2024-03-17T20:21:47+09:00","default:irrp","irrp")
→ドキュメント作成

→データ形式／データフォーマット

#contents


*PDF一般 [#l1bb0614]
-[[WSL2 で md-to-pdf を使うために四苦八苦した話 | DevelopersIO>https://dev.classmethod.jp/articles/how-to-setup-mdtopdf-on-wsl2/]] 2023.6

-[[画面がなくデータだけある状態からAWS LambdaでPDFのレポートを作成したくて方法を調査して最終的にWeasyPrint + Jinjaで生成したので手順をまとめてみた | DevelopersIO>https://dev.classmethod.jp/articles/create-pdf-report-with-lambda-weasyprint-jinja/]] 2023.3

-[[PDF パスワードを解除する五つの方法>https://www.passfab.jp/pdf/unlock-pdf-file-password.html]] 2021.8

-[[無料でウェブページをPDFに変換するオンラインサービス-PDFmyURL.com>http://coliss.com/articles/web-services/online-pdfmyurl.html]]

-[[PDF Unlocker>http://www.lifehacker.jp/2008/07/pdf_unlockerpdf.html]]

-[[オンラインで手軽に使えるPDFツールまとめ>http://www.designwalker.com/2008/03/pdf-tool.html]]

-[[WordやExcelのファイルをメールで送るだけでPDFファイルに変換する「KoolWIRE」 - GIGAZINE>https://gigazine.net/news/20080208_koolwire/]] 2008



*Acrobat/PDFビューワ [#n3166592]
-ファイルオープンしたらしおりを表示するには→「文書のプロパティ」の「開き方」タグで表示のプルダウンを「しおりパネルとページ」とする。ただしこの設定はAcrobat Reader で開いたときには有効だが、Edgeで開いた場合には効かない。

-[[Adobe Acrobat ユーザーガイド>https://helpx.adobe.com/jp/acrobat/user-guide.html]] 2023

-https://www.adobe.com/jp/acrobat/free-trial-download.html

-[[PDFファイルの内部構造を見るためのツール｜G3｜note>https://note.com/tasty_hosta723/n/nf4879665b36d]] 2023.3

-[[Foxit Reader for Windows>http://www.altech-ads.com/product/10001352.htm]]
--軽快なPDFビューワ

-[[Adobe Readerの重たさに辟易したら「Perfect PDF Reader」>http://www.moongift.jp/2009/03/perfect_pdf_reader/]]
--http://soft-xpansion.com/index.php?p=pdftech/pdfqr

-[[Adobe Acrobatはトロイの木馬>http://d.hatena.ne.jp/karasuyamatengu/20110227/1298764935]] 2011.3.1




*PythonによるPDF処理 [#s57bc908]
→Python関連Tips

-[[PyMuPDFで実現する高速PDFテキスト抽出ガイド | ジコログ>https://self-development.info/pymupdf%e3%81%a7%e5%ae%9f%e7%8f%be%e3%81%99%e3%82%8b%e9%ab%98%e9%80%9fpdf%e3%83%86%e3%82%ad%e3%82%b9%e3%83%88%e6%8a%bd%e5%87%ba%e3%82%ac%e3%82%a4%e3%83%89/]] 2024.2

-[[pdfからtextを抜き出す試行錯誤のメモ｜Kan Hatakeyama>https://note.com/kan_hatakeyama/n/n1773c588ecb4]] 2024.2

-[[【Python】PDFへの変換・作成が可能なpdfkitのインストール | ジコログ>https://self-development.info/%e3%80%90python%e3%80%91pdf%e3%81%b8%e3%81%ae%e5%a4%89%e6%8f%9b%e3%83%bb%e4%bd%9c%e6%88%90%e3%81%8c%e5%8f%af%e8%83%bd%e3%81%aapdfkit%e3%81%ae%e3%82%a4%e3%83%b3%e3%82%b9%e3%83%88%e3%83%bc%e3%83%ab/]] 2023.8


**PyMuPDF [#l8692b2c]
-[[PDFの表からデータを取得する（PyMuPDF） - Qiita>https://qiita.com/alice37308108/items/c9859a66981956e1dad1]] 2023.9

-[[PyMuPDFの基本的な使い方>https://python-work.com/pymupdf-howto/]] 2022.4

-[[Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python - Speaker Deck>https://speakerdeck.com/sansandsoc/extraction-data-from-pdf-using-python]] 2021
--PyMuPDF, Camelot


**PDFminer [#k5bda25e]
-[[Claude3で表を含むPDFを解析する（非構造化doc、構造化doc、画像） #Python - Qiita>https://qiita.com/cyberBOSE/items/f69caa3a3a8278905b0b]] 2024.3

-[[PDFMinerでXY座標付きのテキストを得る - Qiita>https://qiita.com/ucosarv/items/f3605bad12179dd018b8]] 2018

-[[【Python】pdfminerでPDFからテキストを抽出する | ジコログ>https://self-development.info/%e3%80%90python%e3%80%91pdfminer%e3%81%a7pdf%e3%81%8b%e3%82%89%e3%83%86%e3%82%ad%e3%82%b9%e3%83%88%e3%82%92%e6%8a%bd%e5%87%ba%e3%81%99%e3%82%8b/]] 2020

-[[PythonでPDFファイルをエクセル変換する - Qiita>https://qiita.com/daifuku10/items/3f99c56998f35419c7f3]] 2022.3
--pdfminer3 → OpenPyXL

**Camelot [#k0325e34]
-[[PDF内の全ての表データを自動抽出 Python/Camelot | みやしんのプログラミングスキル通信>https://miyashinblog.com/camelot/]] 2022.12

**その他 [#gfd7d3a7]
-[[PythonでPDFファイルのテーブルデータを読み取る - Qiita>https://qiita.com/OgawaHideyuki/items/5e474976b6d85f1029dc]] 2020
--tabulaはPDFの表を抽出するためのJavaのライブラリです。tabula-pyはそのラッパとなっております。そのため、利用するためにはJavaのインストールが必要です。


*ファイルフォーマット [#if316391]
-[[世界一巨大なPDFが想像以上にでかすぎる！ PDFファイルの内部構造とAcrobatで巨大なPDFを作成する方法も解説 | コリス>https://coliss.com/articles/build-websites/operation/work/making-biggest-pdf.html]] 2024.2

-[[PDF 構文 -ファイル 解析手順->https://www.pdf-tools.trustss.co.jp/Syntax/parsePdfProc.html]] 2023.1

-[[僕「PDFとは何か知りたい」>https://qiita.com/zawawahoge/items/4312649f8d56f8983ffb]] 2020.11
--PDFは大きく分けて次の３つの技術を組み合わせています。
--PostScriptページ記述言語（レイアウト・グラフィックの生成）
--構造化されたストレージシステム(データ圧縮など)
--フォント埋め込み・置換システム

-[[Portable Document Format - Wikipedia>https://ja.wikipedia.org/wiki/Portable_Document_Format]] 2022

-[[PDF file format: Basic structure [updated 2020] | Infosec Resources>https://resources.infosecinstitute.com/topic/pdf-file-format-basic-structure/]] 2020
-[[PDF ファイル形式 - PDF ファイルとは?>https://docs.fileformat.com/ja/pdf/]]


**PostScript [#o0c4eceb]
-PDFは、PostScriptを使用して、文書やグラフィックスを記述する方法を統一し、それをデバイスやプラットフォームに依存しない形で表示できるようにしました。そして、PDFはPostScriptの文書を表示、印刷、検索、抽出などの機能を持ち、比較的軽量なのに対してPostScriptは処理に時間がかかるため、PDFの方が使用頻度が高いです。

-PDFの中には、PostScriptプログラムが埋め込まれている場合があります。これは、PDFの中に埋め込まれたPostScriptプログラムが、PDFドキュメントの一部として印刷や表示を行うために使用されます。


**CMap/CID [#f7569e81]
-[[ヒラギノ角ゴシックのCMapを読む - Qiita>https://qiita.com/inaniwaudon/items/e50e1edc864a0944c971]] 2022

-[[PDF　千夜一夜: PDFからテキスト抽出のために　ToUnicode CMap>https://blog.antenna.co.jp/PDFTool/archives/2006/05/tounicode_cmap.html]] 2006
--CMapは文字コードからアドビが定義したCIDに変換するマップ
--ToUnicodeCMapは、CIDへの変換ではなく、PDFの中に入っている表示用の文字列情報をUnicodeに変換するためのテーブル

-[[PDF　千夜一夜: 2006年01月17日 アーカイブ:PDFと文字 (25) &#8211; CMapで文字コードからCIDへ変換>https://blog.antenna.co.jp/PDFTool/archives/2006/01/17/]] 2006

-[[pdfminer/cmapdb.py at master &#183; euske/pdfminer &#183; GitHub>https://github.com/euske/pdfminer/blob/master/pdfminer/cmapdb.py]] 2022.12

-[[What are CID fonts?>https://blog.idrsolutions.com/what-are-cid-fonts/]] 2011
--もともとPDFで使われていたフォント技術である Postscript/Type1 and Truetype では欧米系の言語はうまく処理できるがCJKフォントは苦手だった
--そこでCJKフォント向けに用意された規格がCIDフォント
--The main features that CID fonts add are the ability to have 16bit values (so 65535 separate CID characters rather than 256) and much more sophisticated and more flexible unicode settings for extraction. Predefined CMAPs (or custom ones embedded by the user) allow for text extraction to provide appropriate values.

-[[How are Embedded CMAP tables defined in a PDF File?>https://blog.idrsolutions.com/how-are-embedded-cmap-tables-in-pdf-file/]] 2012

-[[cmap - Character To Glyph Index Mapping Table (OpenType 1.9) - Typography | Microsoft Learn>https://learn.microsoft.com/en-us/typography/opentype/spec/cmap]] 2022.1

-CMap (Character Map) は、PDFのフォントの内部表現とUnicodeの文字集合との間をマッピングするために使用されるものです。
--PDFは、文字を表現するためにフォントを使用します。フォントは、文字をグラフィックスとして表現するために使用されるデータです。しかし、PDFは様々なプラットフォームやデバイスで表示するために使用されるため、フォントデータが異なる場合があります。
--CMapは、PDFのフォントの内部表現とUnicodeの文字集合との間をマッピングするために使用されます。これにより、PDFのフォントが異なっていても、同じ文字を表示することができるようになります。
--CMapは、PDFの中に埋め込まれているので、PDFの中に複数のCMapが存在する場合があります。それぞれのCMapは、異なるフォントや文字集合をサポートしています。CMapは、PDFのフォントのエンコーディングに対応していることができます。


*プログラム言語から出力 [#x22badb3]
-[[【Python】PDFを分割・結合できるpypdfのインストール | ジコログ>https://self-development.info/%e3%80%90python%e3%80%91pdf%e3%82%92%e5%88%86%e5%89%b2%e3%83%bb%e7%b5%90%e5%90%88%e3%81%a7%e3%81%8d%e3%82%8bpypdf%e3%81%ae%e3%82%a4%e3%83%b3%e3%82%b9%e3%83%88%e3%83%bc%e3%83%ab/]] 2023.8

-[[Java ライブラリ Apache PDFBox で PDF を操作しよう (第１回:概要と簡単な操作)>https://weblabo.oscasierra.net/java-pdfbox-1/]] 2017.8
-[[JavaでPDFファイルを出力する(iTextライブラリ)【準備編】>http://d.hatena.ne.jp/MoonMtLab/20130913/1379021689]] 2013.9

-[[iTextSharpによるPDF出力@CodeProject>http://www.codeproject.com/useritems/iTextSharpTutorial.asp]]
-[[iTextSharpによるPDF出力:http://codezine.jp/a/article.aspx?aid=462]]
-[[Gios PDF .NET library:http://www.codeproject.com/cs/library/giospdfnetlibrary.asp]]


*ツールによるPDFの生成、編集 [#s8e7fd5a]
-[[WebページをPDFに変換できるwkhtmltopdfのインストール | ジコログ>https://self-development.info/web%e3%83%9a%e3%83%bc%e3%82%b8%e3%82%92pdf%e3%81%ab%e5%a4%89%e6%8f%9b%e3%81%a7%e3%81%8d%e3%82%8bwkhtmltopdf%e3%81%ae%e3%82%a4%e3%83%b3%e3%82%b9%e3%83%88%e3%83%bc%e3%83%ab/]] 2023.8

-[[さまざまな文書をPDFファイルへ変換、ページ移動や追加などの編集もできるフリーソフト「PDF24 PDF Creator」>http://gigazine.net/news/20120726-pdf24-pdf-creator/]] 2012.7.26

-[[PDF変換ソフトのガイド>http://www.pdf-soft.com/]]

-[[PDFファイルを簡単に分割・結合できる PDF Split and Merge>http://coliss.com/articles/software/1415.html]]

-[[PDFをデスクトップで変換させるフリーソフト>http://www.lifehacker.jp/2008/08/pdfpc.html]]

-http://convertpdftoword.net/
--PDF -> Word変換

-http://www.html2pdf.biz/free_edition.php
--WebサイトやhtmlからPDFを生成

-[[文書のPDF化:http://homepage3.nifty.com/cinema1987/pdf/pdf_make.htm]]

-[[PrimoPDF:http://www.primopdf.com/]] フリーのPDFコンバータ

-PrimoPDFで出力したPDFをReaderで表示すると「フォントが無効なので削除」とか言われて文字化けして読めないとき
--以下のようにすると解決した
--プリンタ(PrimoPDF)のプロパティを表示
--「全般」タブの「印刷設定」ボタン→「レイアウト」タブの「詳細設定」ボタン→「TrueType Font Download Option」を「Automatic」から「Outline」に変更
--&ref(ドキュメント作成/primo.PNG);
--(2006.9.20 最新バージョンでは解決している模様）

-[[ConcatPDF:http://www.ujihara.jp/ConcatPDF/ja/]]
--PDFの結合・抽出・暗号化などをしてくれるツール
PDF関連 の変更点