PDF/Officeファイルから検索用文字列とサムネイルを抽出(ShareDoc連携)

事例のご紹介 (2020年)

案件 ETT Server for ShareDoc
動作環境 Apache+PHP+SQLite(Linux)

PDF、Word/Excel/PoerPointの中身を検索したい、という要望。ShareDocにアップされた添付ファイルがPDF/Officeファイルの場合、中身の文字列部分を抽出して全文検索の対象にするため、文字列を抽出、開いた時のイメージをサムネイルとして保存。この処理をShareDocサーバにさせると重くなるため、別サーバを立てることにした。名称はExtract Text and Thumbnail Serverを略して「ETT Server」とした。
Officeファイルは開いた時のイメージをサムネイル化したが、PDFは最初のページだけだと内容がわかりづらいので、最初から4ページをサムネイル化して一つの画像に合成。動画はいくつかのカットをサムネイル化して合成。画像とテキストはOfficeファイルと同様に一つのサムネイルとした。サムネイルの抽出はチューニング可能。