PDF Reading

Ответить
katit
Reactions: 52
Сообщения: 369
Зарегистрирован: Ср авг 10, 2022 9:37 am
Откуда: St Louis, USA
Интересы: All

PDF Reading

Сообщение katit »

Есть тут кто-то кто сталкивался с такого рода задачами?

Типа есть PDF Invoice, надо его распарсить и получить данные.
Аватара пользователя
self
Reactions: 960
Сообщения: 5391
Зарегистрирован: Пт июн 17, 2022 9:21 am

Re: PDF Reading

Сообщение self »

katit писал(а): Пт дек 08, 2023 12:29 pm Есть тут кто-то кто сталкивался с такого рода задачами?

Типа есть PDF Invoice, надо его распарсить и получить данные.

Сочувствую. Читайте

https://nanonets.com/blog/pdf-parser/
"Те, кто стараются жить только своей жизнью, часто умирают не своей смертью"
katit
Reactions: 52
Сообщения: 369
Зарегистрирован: Ср авг 10, 2022 9:37 am
Откуда: St Louis, USA
Интересы: All

Re: PDF Reading

Сообщение katit »

Да читал я уже ето.. Больше интересует если кто-то владеет инфой с "первых рук" так сказать, кто делал чтоб проконсультироваться.
Работяга
Reactions: 7
Сообщения: 46
Зарегистрирован: Чт ноя 30, 2023 11:47 am

Re: PDF Reading

Сообщение Работяга »

katit писал(а): Пт дек 08, 2023 12:29 pm Есть тут кто-то кто сталкивался с такого рода задачами?

Типа есть PDF Invoice, надо его распарсить и получить данные.

Код: Выделить всё

# Install PyMuPDF
# pip install PyMuPDF

import fitz  # PyMuPDF

# string path to the PDF file
# file_path

def extract_text_from_pdf(file_path):
    with fitz.open(file_path) as doc:
        text = ""
        for page in doc:
            text += page.get_text()
        return text

pdf_text = extract_text_from_pdf('example.pdf')
print(pdf_text)
katit
Reactions: 52
Сообщения: 369
Зарегистрирован: Ср авг 10, 2022 9:37 am
Откуда: St Louis, USA
Интересы: All

Re: PDF Reading

Сообщение katit »

Работяга писал(а): Пт дек 08, 2023 2:33 pm
katit писал(а): Пт дек 08, 2023 12:29 pm Есть тут кто-то кто сталкивался с такого рода задачами?

Типа есть PDF Invoice, надо его распарсить и получить данные.

Код: Выделить всё

# Install PyMuPDF
# pip install PyMuPDF

import fitz  # PyMuPDF

# string path to the PDF file
# file_path

def extract_text_from_pdf(file_path):
    with fitz.open(file_path) as doc:
        text = ""
        for page in doc:
            text += page.get_text()
        return text

pdf_text = extract_text_from_pdf('example.pdf')
print(pdf_text)
Супер! Проблема решена!
1 Изображение
katit
Reactions: 52
Сообщения: 369
Зарегистрирован: Ср авг 10, 2022 9:37 am
Откуда: St Louis, USA
Интересы: All

Re: PDF Reading

Сообщение katit »

Если что это сарказм был.

Те товарищи по ссылке сверху те документы что я им скормил тоже на 2+ справились
1 Изображение
Работяга
Reactions: 7
Сообщения: 46
Зарегистрирован: Чт ноя 30, 2023 11:47 am

Re: PDF Reading

Сообщение Работяга »

katit писал(а): Пт дек 08, 2023 3:38 pm Если что это сарказм был.

Те товарищи по ссылке сверху те документы что я им скормил тоже на 2+ справились
А вы хотеле, что бы вам эпп забабахали с PyTorch или TensorFlow, еще подогнали UI с Zoning for free :D Это тоже был сарказм.
katit
Reactions: 52
Сообщения: 369
Зарегистрирован: Ср авг 10, 2022 9:37 am
Откуда: St Louis, USA
Интересы: All

Re: PDF Reading

Сообщение katit »

Я хотел чтобы тот кто это делал хотя бы в трех строчках описал суть проблемы

А если есть те кто этим занимается и может сделать так я и заплатить могу с удовольствием
Работяга
Reactions: 7
Сообщения: 46
Зарегистрирован: Чт ноя 30, 2023 11:47 am

Re: PDF Reading

Сообщение Работяга »

katit писал(а): Пт дек 08, 2023 3:59 pm Я хотел чтобы тот кто это делал хотя бы в трех строчках описал суть проблемы

А если есть те кто этим занимается и может сделать так я и заплатить могу с удовольствием
Если цена вопроса нет проблем, то давайте в личке пообщаемся :beer:
Аватара пользователя
self
Reactions: 960
Сообщения: 5391
Зарегистрирован: Пт июн 17, 2022 9:21 am

Re: PDF Reading

Сообщение self »

katit писал(а): Пт дек 08, 2023 3:59 pm Я хотел чтобы тот кто это делал хотя бы в трех строчках описал суть проблемы

А если есть те кто этим занимается и может сделать так я и заплатить могу с удовольствием
Проблема очень проста. PDF - изначально очень плохо структурированный формат. В худшем случае - это одна картинка в формате TIFF (обычно из сканера такое выходит).
Чтоб разoбрать, что изображено на картинке нужен хороший AI, да и тот не гарантирует.

Так что в общем случае хорошего ответа на ваш вопрос нет. Нужно смотреть конкретно на именно ваши входящие файлы и подбирать под них софт методом проб и ошибок.
1 Изображение
"Те, кто стараются жить только своей жизнью, часто умирают не своей смертью"
Аватара пользователя
Mad Hatter
⭐ Top 5 most interesting users
Reactions: 1481
Сообщения: 7839
Зарегистрирован: Пн июн 13, 2022 7:22 am

Re: PDF Reading

Сообщение Mad Hatter »

Когда-то на такой задаче Abby поднялся 😂
alex_127
Reactions: 948
Сообщения: 4489
Зарегистрирован: Ср июн 15, 2022 9:44 am

Re: PDF Reading

Сообщение alex_127 »

Mad Hatter писал(а): Сб дек 09, 2023 8:21 am Когда-то на такой задаче Abby поднялся 😂
Это по принципу - есть ли хороший Парсер Для ворда - А То У Микросовта Такого Нет...
1 Изображение
орган размножения сумчатых грибов, три буквы.
Аватара пользователя
self
Reactions: 960
Сообщения: 5391
Зарегистрирован: Пт июн 17, 2022 9:21 am

Re: PDF Reading

Сообщение self »

Mad Hatter писал(а): Сб дек 09, 2023 8:21 am Когда-то на такой задаче Abby поднялся 😂
Ну с тех пор OCR далеко продвинулся. Даже мой дешевый сканер имеет опцию Save as Searchable PDF, когда вместе с изображением сохраняет индекс из распознанных слов.
"Те, кто стараются жить только своей жизнью, часто умирают не своей смертью"
Аватара пользователя
Mad Hatter
⭐ Top 5 most interesting users
Reactions: 1481
Сообщения: 7839
Зарегистрирован: Пн июн 13, 2022 7:22 am

Re: PDF Reading

Сообщение Mad Hatter »

self писал(а): Сб дек 09, 2023 12:25 pm
Mad Hatter писал(а): Сб дек 09, 2023 8:21 am Когда-то на такой задаче Abby поднялся 😂
Ну с тех пор OCR далеко продвинулся. Даже мой дешевый сканер имеет опцию Save as Searchable PDF, когда вместе с изображением сохраняет индекс из распознанных слов.
Конечно. В то время не было ML OCR как сейчас.
Работяга
Reactions: 7
Сообщения: 46
Зарегистрирован: Чт ноя 30, 2023 11:47 am

Re: PDF Reading

Сообщение Работяга »

self писал(а): Сб дек 09, 2023 12:25 pm
Mad Hatter писал(а): Сб дек 09, 2023 8:21 am Когда-то на такой задаче Abby поднялся 😂
Ну с тех пор OCR далеко продвинулся. Даже мой дешевый сканер имеет опцию Save as Searchable PDF, когда вместе с изображением сохраняет индекс из распознанных слов.
Ну если бы всё так было просто и легко, то моя компания не тратила бы по 150-200 миллионов в год на разработку OCR, а AWS вообще придлагал бесплатную опцию в пакете услуг и не чарджил чуть ли за каждое слово, плюс это стоимость будет капать на тренировке, а не в риальной жизне.
1 Изображение
katit
Reactions: 52
Сообщения: 369
Зарегистрирован: Ср авг 10, 2022 9:37 am
Откуда: St Louis, USA
Интересы: All

Re: PDF Reading

Сообщение katit »

self писал(а): Сб дек 09, 2023 12:25 pm
Mad Hatter писал(а): Сб дек 09, 2023 8:21 am Когда-то на такой задаче Abby поднялся 😂
Ну с тех пор OCR далеко продвинулся. Даже мой дешевый сканер имеет опцию Save as Searchable PDF, когда вместе с изображением сохраняет индекс из распознанных слов.
У меня нет проблем сохранить PDF в текст. Задача другого плана, но в общем ситуацию я понял, keywords выучил попробуем покопать в сторону aws
Ответить