AI前処理 PDFファイルからテキストを抽出しMarkdownファイルに変換

名称
PDFからテキスト抽出
タグ
AI前処理/Claude/生成AI
使用コネクター
RESTコネクター
API
APIバージョン:2023-06-01
AI前処理 PDFファイルからテキストを抽出しMarkdownファイルに変換

生成AIで利用するRAGのデータ準備を容易にする、HULFT Squareのアプリケーションです。
本アプリケーションは、LLMであるClaudeを利用してPDFファイル内のテキストを抽出、Markdownファイルとして出力します。

スクリプト詳細

PDFファイルをMarkdownファイルに変換

ScannedPdf_To_Markdown_Claude_convert

PDFファイル変換の所要トークン数の制限値チェック

ScannedPdf_To_Markdown_Claude_validate_limits

PDFファイルのページ数を取得

ScannedPdf_To_Markdown_Claude_get_max_page

PDFファイルのページ毎にテキスト抽出の結果をMarkdownファイルに出力

ScannedPdf_To_Markdown_Claude_convert_to_markdown

インストール方法と使い方はこちら