PDF関連の履歴差分(No.2)

追加された行はこの色です。
削除された行はこの色です。
#author("2023-01-04T22:24:11+09:00","default:irrp","irrp")
#author("2023-01-04T23:48:16+09:00","default:irrp","irrp")
→ドキュメント作成

→データ形式／データフォーマット

#contents


*PDF一般 [#l1bb0614]
-[[PDF内の全ての表データを自動抽出 Python/Camelot | みやしんのプログラミングスキル通信>https://miyashinblog.com/camelot/]] 2022.12

-[[PDF パスワードを解除する五つの方法>https://www.passfab.jp/pdf/unlock-pdf-file-password.html]] 2021.8

-[[Java ライブラリ Apache PDFBox で PDF を操作しよう (第１回:概要と簡単な操作)>https://weblabo.oscasierra.net/java-pdfbox-1/]] 2017.8
-[[無料でウェブページをPDFに変換するオンラインサービス-PDFmyURL.com>http://coliss.com/articles/web-services/online-pdfmyurl.html]]

-[[さまざまな文書をPDFファイルへ変換、ページ移動や追加などの編集もできるフリーソフト「PDF24 PDF Creator」>http://gigazine.net/news/20120726-pdf24-pdf-creator/]] 2012.7.26
-[[PDF Unlocker>http://www.lifehacker.jp/2008/07/pdf_unlockerpdf.html]]
-[[PDFフォント○×チェッカー>http://pdf.printjapan.com/]]

-[[PDF変換ソフトのガイド>http://www.pdf-soft.com/]]
-[[オンラインで手軽に使えるPDFツールまとめ>http://www.designwalker.com/2008/03/pdf-tool.html]]
-[[KoolWIRE紹介>http://gigazine.net/index.php?/news/comments/20080208_koolwire/]]

-[[Adobe Acrobatはトロイの木馬>http://d.hatena.ne.jp/karasuyamatengu/20110227/1298764935]] 2011.3.1

-[[無料でウェブページをPDFに変換するオンラインサービス-PDFmyURL.com>http://coliss.com/articles/web-services/online-pdfmyurl.html]]

*PDFビューワ [#n3166592]
-[[Foxit Reader for Windows>http://www.altech-ads.com/product/10001352.htm]]
--軽快なPDFビューワ

-[[Adobe Readerの重たさに辟易したら「Perfect PDF Reader」>http://www.moongift.jp/2009/03/perfect_pdf_reader/]]
--http://soft-xpansion.com/index.php?p=pdftech/pdfqr

-http://convertpdftoword.net/
--PDF -> Word変換
-[[Acrobat のエディション別の機能差一覧:http://support.adobe.co.jp/faq/faq/qadoc.sv?3610+001]]
-[[Adobe Acrobatはトロイの木馬>http://d.hatena.ne.jp/karasuyamatengu/20110227/1298764935]] 2011.3.1

-http://pdfforge.org/

-http://www.html2pdf.biz/free_edition.php
--WebサイトやhtmlからPDFを生成
*ツールによるPDFの生成、編集 [#s8e7fd5a]
-[[さまざまな文書をPDFファイルへ変換、ページ移動や追加などの編集もできるフリーソフト「PDF24 PDF Creator」>http://gigazine.net/news/20120726-pdf24-pdf-creator/]] 2012.7.26

-[[PDF変換ソフトのガイド>http://www.pdf-soft.com/]]

-[[PDFファイルを簡単に分割・結合できる PDF Split and Merge>http://coliss.com/articles/software/1415.html]]

-[[PDFをデスクトップで変換させるフリーソフト>http://www.lifehacker.jp/2008/08/pdfpc.html]]

-[[Foxit Reader for Windows>http://www.altech-ads.com/product/10001352.htm]]
--軽快なPDFビューワ
-http://convertpdftoword.net/
--PDF -> Word変換

-[[PDF Unlocker>http://www.lifehacker.jp/2008/07/pdf_unlockerpdf.html]]
-[[PDFフォント○×チェッカー>http://pdf.printjapan.com/]]
-http://www.html2pdf.biz/free_edition.php
--WebサイトやhtmlからPDFを生成

-[[オンラインで手軽に使えるPDFツールまとめ>http://www.designwalker.com/2008/03/pdf-tool.html]]
-[[KoolWIRE紹介>http://gigazine.net/index.php?/news/comments/20080208_koolwire/]]
-[[文書のPDF化:http://homepage3.nifty.com/cinema1987/pdf/pdf_make.htm]]

-[[Gios PDF .NET library:http://www.codeproject.com/cs/library/giospdfnetlibrary.asp]]
-[[PrimoPDF:http://www.primopdf.com/]] フリーのPDFコンバータ

-[[JavaでPDFファイルを出力する(iTextライブラリ)【準備編】>http://d.hatena.ne.jp/MoonMtLab/20130913/1379021689]] 2013.9

-[[iTextSharpによるPDF出力@CodeProject>http://www.codeproject.com/useritems/iTextSharpTutorial.asp]]
-[[iTextSharpによるPDF出力:http://codezine.jp/a/article.aspx?aid=462]]

-[[文書のPDF化:http://homepage3.nifty.com/cinema1987/pdf/pdf_make.htm]]
-[[ConcatPDF:http://www.ujihara.jp/ConcatPDF/ja/]]
--PDFの結合・抽出・暗号化などをしてくれるツール
-[[Acrobat のエディション別の機能差一覧:http://support.adobe.co.jp/faq/faq/qadoc.sv?3610+001]]
-[[PrimoPDF:http://www.primopdf.com/]] フリーのPDFコンバータ
-PrimoPDFで出力したPDFをReaderで表示すると「フォントが無効なので削除」とか言われて文字化けして読めないとき
--以下のようにすると解決した
--プリンタ(PrimoPDF)のプロパティを表示
--「全般」タブの「印刷設定」ボタン→「レイアウト」タブの「詳細設定」ボタン→「TrueType Font Download Option」を「Automatic」から「Outline」に変更
--&ref(primo.PNG);
--&ref(ドキュメント作成/primo.PNG);
--(2006.9.20 最新バージョンでは解決している模様）

-[[ConcatPDF:http://www.ujihara.jp/ConcatPDF/ja/]]
--PDFの結合・抽出・暗号化などをしてくれるツール


*プログラム言語から出力 [#x22badb3]
-[[Java ライブラリ Apache PDFBox で PDF を操作しよう (第１回:概要と簡単な操作)>https://weblabo.oscasierra.net/java-pdfbox-1/]] 2017.8
-[[JavaでPDFファイルを出力する(iTextライブラリ)【準備編】>http://d.hatena.ne.jp/MoonMtLab/20130913/1379021689]] 2013.9

-[[iTextSharpによるPDF出力@CodeProject>http://www.codeproject.com/useritems/iTextSharpTutorial.asp]]
-[[iTextSharpによるPDF出力:http://codezine.jp/a/article.aspx?aid=462]]
-[[Gios PDF .NET library:http://www.codeproject.com/cs/library/giospdfnetlibrary.asp]]


*PythonによるPDF処理 [#s57bc908]
→Python関連Tips

-[[PDFMinerでXY座標付きのテキストを得る - Qiita>https://qiita.com/ucosarv/items/f3605bad12179dd018b8]] 2018

-[[PDF内の全ての表データを自動抽出 Python/Camelot | みやしんのプログラミングスキル通信>https://miyashinblog.com/camelot/]] 2022.12

-[[【Python】pdfminerでPDFからテキストを抽出する | ジコログ>https://self-development.info/%e3%80%90python%e3%80%91pdfminer%e3%81%a7pdf%e3%81%8b%e3%82%89%e3%83%86%e3%82%ad%e3%82%b9%e3%83%88%e3%82%92%e6%8a%bd%e5%87%ba%e3%81%99%e3%82%8b/]] 2020

-[[PythonでPDFファイルのテーブルデータを読み取る - Qiita>https://qiita.com/OgawaHideyuki/items/5e474976b6d85f1029dc]] 2020
--tabulaはPDFの表を抽出するためのJavaのライブラリです。tabula-pyはそのラッパとなっております。そのため、利用するためにはJavaのインストールが必要です。

-[[PythonでPDFファイルをエクセル変換する - Qiita>https://qiita.com/daifuku10/items/3f99c56998f35419c7f3]] 2022.3
--pdfminer3 → OpenPyXL


*ファイルフォーマット [#if316391]
-[[僕「PDFとは何か知りたい」>https://qiita.com/zawawahoge/items/4312649f8d56f8983ffb]] 2020.11
--PDFは大きく分けて次の３つの技術を組み合わせています。
--PostScriptページ記述言語（レイアウト・グラフィックの生成）
--構造化されたストレージシステム(データ圧縮など)
--フォント埋め込み・置換システム

-[[PDF　千夜一夜: PDFからテキスト抽出のために　ToUnicode CMap>https://blog.antenna.co.jp/PDFTool/archives/2006/05/tounicode_cmap.html]] 2006
--CMapは文字コードからアドビが定義したCIDに変換するマップ
--ToUnicodeCMapは、CIDへの変換ではなく、PDFの中に入っている表示用の文字列情報をUnicodeに変換するためのテーブル

-[[PDF　千夜一夜: 2006年01月17日 アーカイブ:PDFと文字 (25) &#8211; CMapで文字コードからCIDへ変換>https://blog.antenna.co.jp/PDFTool/archives/2006/01/17/]] 2006

-[[Portable Document Format - Wikipedia>https://ja.wikipedia.org/wiki/Portable_Document_Format]] 2022

-[[pdfminer/cmapdb.py at master &#183; euske/pdfminer &#183; GitHub>https://github.com/euske/pdfminer/blob/master/pdfminer/cmapdb.py]] 2022.12

-[[What are CID fonts?>https://blog.idrsolutions.com/what-are-cid-fonts/]] 2011
--もともとPDFで使われていたフォント技術である Postscript/Type1 and Truetype では欧米系の言語はうまく処理できるがCJKフォントは苦手だった
--そこでCJKフォント向けに用意された規格がCIDフォント
--The main features that CID fonts add are the ability to have 16bit values (so 65535 separate CID characters rather than 256) and much more sophisticated and more flexible unicode settings for extraction. Predefined CMAPs (or custom ones embedded by the user) allow for text extraction to provide appropriate values.


-[[PDF file format: Basic structure [updated 2020] | Infosec Resources>https://resources.infosecinstitute.com/topic/pdf-file-format-basic-structure/]] 2020
-[[PDF ファイル形式 - PDF ファイルとは?>https://docs.fileformat.com/ja/pdf/]]
PDF関連 の履歴差分(No.2)

PDF関連の履歴差分(No.2)