Конвертировать PDF в текст в Linux несложно, если вы знаете несколько советов и хитростей в вашем конкретном дистрибутиве, но что, если вы новичок в Linux и вам нужно конвертировать PDF-документ в текстовый эквивалент? Существуют ли какие-либо инструменты Linux, специально предназначенные для этого? Как насчет модулей распознавания текста - как вы их получаете для Linux? Ответы на все эти вопросы содержатся в этой статье, поэтому читайте дальше, чтобы узнать больше о том, как конвертировать PDF в текст в Linux.
2 Способа конвертирования PDF в текст в Linux
Давайте рассмотрим пару способов сделать это на рабочем столе Linux и инструменты для них.
Способ 1: Используйте приложение для электронных книг
По сути, то, что вы хотите сделать, - это конвертировать не редактируемый и, возможно, недоступный для поиска PDF-документ и конвертировать содержимое без фактического изменения формата. Для этого вы можете использовать бесплатную программу или приложение с открытым исходным кодом, такое как Calibre. Он доступен в большинстве репозиториев для Ubuntu, Mint, Fedora и других популярных дистрибутивов. Правильный синтаксис варьируется от дистрибутива к дистрибутиву, но ваша базовая команда терминала должна выглядеть примерно так:
sudo apt устанавливает калибр
После установки вы можете следить за ходом процесса из приложения. Вот как это должно выглядеть:
- 1. Запустите приложение и нажмите кнопку Добавить книги в левом верхнем углу, чтобы импортировать один или несколько отсканированных или не редактируемых PDF-документов.
- 2. Когда вы увидите PDF-файлы в списке под панелью инструментов Calibre, выберите файлы, которые вы хотите конвертировать в текст, и нажмите кнопку Конвертировать книги вверху.
- 3. Выберите формат выходного файла в формате TXT в окне конвертирования и нажмите OK для конвертирования.
Теперь вы можете открыть файл в любом текстовом редакторе и внести изменения или отредактировать содержимое так, как вам хочется. Формат оригинала не сохранен, но это довольно аутентичная копия не редактируемого файла. Исходный PDF-документ останется неизменным, поэтому вы можете сохранить новую версию с немного другим именем, например Doc1_OCR, Doc2_OCR и так далее.
Способ 2: Используйте команды терминала
С другой стороны, если вы владеете компьютером с Linux на уровне эксперта, вы можете попробовать конвертировать PDF в текст с помощью командной строки. Для этого вы можете использовать что-то вроде pdftotext. Это часть пакета Poppler, но название может отличаться в зависимости от того, какой дистрибутив вы используете. Первым шагом является его установка, и вы можете сделать это с помощью следующих команд:
1. Сначала введите следующее в терминале и нажмите "Ввод"
sudo apt install poppler-utils [Работает для Debian, Mint, Ubuntu и т.д.]
2. Следующая команда предназначена для конвертирования, и она должна выглядеть следующим образом:
pdftotext -источник макета.pdf target.txt [Источник - исходный PDF-файл, а цель - конечный результат]
Чтобы выполнить приведенную выше команду, приглашение терминала должно находиться в той же папке, что и исходный PDF-файл. В качестве альтернативы вы можете указать путь к файлу перед именами исходного и целевого файлов в команде.
3. Нажмите Enter, чтобы запустить команду для всего PDF-документа. Чтобы конвертировать только один диапазон страниц в документе, измените синтаксис, чтобы он соответствовал приведенному ниже:
pdftotext -layout -f M -l N source.pdf target.txt [где M - первая страница, а N - последняя, подлежащая конвертированию.]
Как конвертировать PDF в текст на Windows и Mac
Теперь вы знаете, как конвертировать PDF в текст в Linux, как насчет Windows или Mac? Знаете ли вы, как сделать то же самое на этих платформах ОС? Если нет, читайте дальше, чтобы узнать об уникальной и надежной утилите для выполнения той же работы в операционных системах, отличных от Linux.
Wondershare PDFelement - Редактор PDF-файлов это кроссплатформенный PDF-редактор с настольными и мобильными приложениями для управления PDF. Это семейство облегченных PDF-инструментов, которые невероятно мощны и универсальны. Что еще более важно, они гораздо более доступны по цене, чем некоторые другие варианты премиум-класса, которые сегодня доминируют на рынке. По этой причине PDFelement быстро становится фактическим редактором PDF для предприятий, которые не могут позволить себе дорогостоящие альтернативы. Кроме того, он может похвастаться следующими функциями:
- Полная возможность редактирования всего текста PDF, изображений, ссылок, мультимедиа и других объектов.
- Комплексные инструменты разметки для аннотирования PDF-файлов.
- Надежные функции безопасности для редактирования, нанесения водяных знаков, шифрования и цифровой подписи.
- Усовершенствованные пакетные процессы для задач конвертирования и распознавания текста.
- Полностью интегрированное управление формами: создавайте интерактивные формы, конвертируйте из не редактируемых PDF-форм, получайте доступ к большой библиотеке шаблонов, массово извлекайте данные из форм и PDF-файлов и т.д.
- Надежная возможность конвертирования 'в PDF' и "из PDF" с очень широкой поддержкой типов файлов.
- Более точный и быстрый, чем многие премиум-редакторы PDF.
Шаги по конвертированию PDF в текст в Windows и Mac:
Windows:
- 1. После запуска PDFelement на вашем ПК с Windows импортируйте файл, перетащив его в окно программного обеспечения, или просто нажмите "Файл" → "Открыть" и получите его таким образом. Даже когда PDF-редактор закрыт, вы можете открыть документ, перетащив его значок поверх значка приложения.
- 2. Если вы нажмете на вкладку "Конвертировать" вверху, вы увидите кнопку на панели инструментов прямо под ней со словами "В текст" и значком. При наведении курсора мыши (всплывающая подсказка) должно быть написано "Конвертировать ваш PDF в текст". Нажмите на кнопку.
- 3. Укажите вашу выходную папку, и, если вам нужно, вы также можете изменить тип выходного файла в диалоговом окне "Сохранить как".
Mac (версии macOS, включая 10.15 Catalina):
PDFelement одинаково интуитивно понятен как на Mac, так и в Windows. Вы можете заметить множество различий в пользовательском интерфейсе между ними, но эти функции были разработаны таким образом, чтобы максимально точно соответствовать нюансам их платформ. Конечным результатом является довольно удобный интерфейс на любой платформе, включая устройства и экраны iOS и Android с сенсорным экраном.
- 1. PDFelement для Mac имеет характерные черты приложения для Mac, как только вы устанавливаете и запускаете приложение. Вы можете открыть свой PDF-файл теми же способами, что и для Windows - перетаскиванием или с помощью меню "Файл".
- 2. Снова в меню "Файл" вы увидите опцию под названием "Экспорт в", которая открывает другое контекстное меню. Выберите "Текст" в качестве вашего варианта и дождитесь завершения конвертирования.
Теперь вы знаете все, что нужно знать о том, как конвертировать PDF в текст в Linux, Windows и Mac.
Василий Лебедев
Главный редактор