Итак, вы здесь, потому что хотите конвертировать PDF в текст с помощью Python. Что ж, вы попали по адресу, потому что мы собираемся показать вам два удобных метода преобразования PDF в текст с помощью Python. Если вы еще не знаете, Python - это объектно-ориентированный язык программирования, который используется для разработки прототипов программного обеспечения веб-приложений и анализа данных. Давайте узнаем, как можно конвертировать PDF в текст с помощью Python.
Конвертирование PDF в текст с помощью Python не является простой задачей, особенно для новичков. Кроме того, с помощью Python трудно конвертировать отсканированные PDF в текст. Если вы ищете более простой способ преобразования PDF, в том числе отсканированных PDF, вы можете использовать Wondershare PDFelement - Редактор PDF-файлов. Это простой в использовании редактор PDF, который может конвертировать PDF в TXT, Word, Excel, PPT и т.д., и наоборот. Благодаря технологии OCR, программа может извлекать текст и данные из PDF-изображений. Поддерживается пакетное конвертирование.
Конвертирование PDF в текст с помощью Python через модуль pdftotext.
Чтобы конвертировать PDF в текст с помощью Python, вам понадобятся следующие инструменты.
1: Poppler для Windows.
Это библиотека для рендеринга PDF, которая также включает утилиту pdftoppm.
2: Модуль pdftotext.
Это модуль Python, в который встроена утилита для конвертирования PDF в текст.
Как установить необходимые инструменты для конвертирования PDF в текст с помощью Python?
Чтобы установить Poppler на Windows, добавьте xxx/bin/ в env path, который установит Poppler в нужное место. Затем установите модуль pdftotext, который конвертирует PDF в текст, пока вы выполняете запрос в Python.
После установки Poppler и модуля pdftotext на Windows, напишите и скомпилируйте следующий код, чтобы он заработал.
1 import pdftotext
2
3 # Load your PDF
4 with open("Target.pdf", "rb") as f:
5 pdf = pdftotext.PDF(f)
6
7 # Save all text to a txt file.
8 with open('output.txt', 'w') as f:
9 f.write("\n\n".join(pdf))
Как работает этот код?
Import pdftotext: с помощью этого запроса вызывается модуль pdftotext для начала процесса конвертирования.
# Load your PDF: этот фрагмент кода загрузит ваш PDF-файл в компилятор.
Код в строках с 4 по 9 выберет и конвертирует PDF-файл в текст, а выходной файл будет сохранен в выбранном месте назначения. Таким образом можно конвертировать PDF в текст с помощью Python.
Конвертирование PDF в текст с помощью Python через PyPDF2.
Этот метод будет использовать внешний модуль под названием PyPDF2 для конвертирования PDF в текст. Этот модуль PyPDF2 позволяет конвертировать, разделять, объединять, обрезать PDF-файлы. Чтобы установить PyPDF2, используйте командную строку ниже:
C:\Users\Admin>pip install PyPDF2
После установки модуля вы можете конвертировать PDF в текст с помощью Python, используя следующий код.
# importing required modules
import PyPDF2
# creating a pdf file object
pdfFileObj = open('example.pdf', 'rb')
# creating a pdf reader object
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
# printing number of pages in pdf file
print(pdfReader.numPages)
# creating a page object
pageObj = pdfReader.getPage(0)
# extracting text from page
print(pageObj.extractText())
# closing the pdf file object
pdfFileObj.close()
Преимущества и недостатки конвертирования PDF в текст с помощью Python.
Давайте сначала выясним преимущества конвертирования PDF в текст с помощью Python.
Python - это язык программирования, который можно использовать для выполнения любых задач. А когда речь идет о конвертировании форматов файлов, Python является прекрасным инструментом для этого, потому что в нем есть несколько модулей для этих целей. С помощью этих модулей очень легко преобразовать PDF в текст, изображение и другие форматы.
Если говорить о недостатках, то самым большим недостатком использования Python является то, что вам необходимо сначала изучить его, что займет много вашего времени. Кроме того, он имеет очень ограниченные возможности и функциональные способности для конвертирования отсканированного PDF-файла в текст.
Если вы считаете, что конвертирование файлов с помощью Python будет для вас настоящей головной болью, у нас есть для вас альтернативный метод - конвертирование PDF в текст без Python. Давайте узнаем, как это сделать.
Как конвертировать PDF в текст без использования Python?
Чтобы конвертировать PDF в текст, вам достаточно Wondershare PDFelement - Редактор PDF-файлов. На данный момент, это один из лучших инструментов, используемых для создания и редактирования PDF-файлов. С его помощью вы можете выполнять множество различных задач, включая конвертирование форматов файлов, создание форм и цифровой подписи. Давайте рассмотрим некоторые из лучших функций ниже.
- Создание PDF-файлов - PDF-файл можно создать так же легко, как и обычный файл MS Word. В файлы PDF можно добавлять изображения, выбирать цвета и многое другое.
- Редактирование PDF - Получили от кого-то PDF-файл и хотите отредактировать его перед отправкой другому человеку? Используя этот инструмент, вы можете с легкостью отредактировать любой файл.
- Конвертирование форматов файлов - Вы можете не только конвертировать PDF в текст и наоборот, но и преобразовывать PDF в около 300 других форматов и наоборот всего несколькими щелчками мыши.
- Создание форм - Вы можете создавать расширенные и сложные формы одним щелчком мыши. Благодаря этой функции, вы можете редактировать существующие формы, а также заполнять их прямо с вашего компьютера, не скачивая и не распечатывая их.
- OCR - С помощью OCR (оптического распознавания символов) вы можете легко конвертировать отсканированные PDF-файлы в редактируемый формат и далее преобразовывать их в любой другой формат. Интересно звучит, не правда ли?
В PDFelement есть много других возможностей, которые нельзя игнорировать. Он может легко превзойти другие подобные программы, потому что ни одна из них не обладает таким количеством функций. Теперь давайте рассмотрим пошаговое руководство по конвертированию PDF в текст.
Шаг 1: Откройте файл PDF.
Сначала запустите PDFelement и откройте PDF-файл для конвертирования. Чтобы открыть файл, нажмите кнопку "Открыть файл...", найдите файл на вашем компьютере, выделите его и нажмите кнопку "Открыть".
Шаг 2: Конвертируйте PDF в текст.
Теперь нажмите "Конвертировать" в строке меню, а затем нажмите "В текст" в строке подменю.
Шаг 3: Выберите папку сохранения.
На последнем этапе выберите выходную или конечную папку, в которую будет сохранен преобразованный файл, и нажмите на кнопку "Сохранить". Как только вы нажмете кнопку "Сохранить", PDF-файл будет преобразован в текстовый формат в течение одного мгновения и сохранен в выбранном месте назначения. Итак, таким образом вы можете конвертировать PDF в текст без использования Python или любого другого сложного языка.
Василий Лебедев
Главный редактор