Microsoft Office 2010. Как редактировать документ, пролученный из PDF в DOCX [Версия для КПК]

Показать полную графическую версию : Microsoft Office 2010. Как редактировать документ, пролученный из PDF в DOCX

Страниц : [1] 2

flev45

11-05-2019, 18:10

При преобразовании из PDF в DOCX, в Word не удаётся что-то делать, например удалить строки.
Посмотрите приложение, этот текст выглядит как фото-PDF... маркер никуда не устанавливается.
Как перейти из этого режима в текстовый режим?
Текстовый редактор, в котором ничего редактировать не получается...

mwz

11-05-2019, 18:21

При преобразовании из PDF в DOCX »

Чем преобразуете?

В исходном PDF есть текстовый слой (грубо говоря, можно ли выделить в документе и скопировать в Word кусочки текста)? Если нет — надо программами OCR преобразовывать, которые переводят рисунок текста в текст: например — в FineReader.

flev45

11-05-2019, 18:38

Если нет — надо программами OCR преобразовывать, которые переводят рисунок текста в текст: например — в FineReader. »
Загрузил ПВФ в FineReader, переслал в Word 2010, всё равно не получается редактировать.
Может мне стоит поискать простенький PDF-редактор?
Мне всего-то надо убрать лишние строки в PDF-документе... например, оставить только строки с продажами в PayPal. Что посоветуете? Спасибо.

mwz

11-05-2019, 19:00

Загрузил ПВФ »

А кто это такой? Пенсионный военный фонд?

Упакуйте свой PDF в архив и выложите на файлообменник: пощупать его.

flev45

11-05-2019, 19:13

Мне кажется, что в FineReader удастся удалить ненужное.
Делаю это при помощи функции "Ластик".
Удалил не нужные области, но теперь надо всё ужать, удалив пустые области документа.
Если просто запомнить в pdf, то эти поля остаются. Можно это сделать в самом FineReader?
Или надо искать какую-то другую прогу?

Iska

11-05-2019, 21:55

flev45, мы ж с Вами вроде в прошлой теме (2010 - [решено] Microsoft Office 2010. Как убрать 1/3 пустого места на каждой странице? (http://forum.oszone.net/thread-340371.html)) пришли к соглашению, что достаточно простого html→doc, разве нет?

flev45

12-05-2019, 10:06

пришли к соглашению, что достаточно простого html→doc, разве нет? »
Конечно нет:(
Там была проблема: после объединения кучи скринов в один docx файл, в конце каждой страницы возникали пустые зоны. После html→pdf эти пустые места исчезли. Т.е. Та проблема была решена, хоть и косвенно.

Тут совсем другая проблема: мне нужно в документе (html, pdf, docx), где отображены купли/продажи на eBay, удалить строки к примеру, все купли и получить документ "продажи".
Я так понял, что даже при html(pdf)→docx я получаю строки не в текстовом виде, а в графическом.
Которые в Word 2010 нельзя корректировать.
Тогда я взял FineReader и удалил в pdf-файле всё ненужное при помощи функции "Ластик".
Всё хорошо, но в любом выходном файле, pdf или docx, образовались пустые зоны (после "Ластик")... которые опять-таки надо удалить. Проблема та же, что в указанной выше теме, но как её решить?
В каком "графическом" редакторе, если такой существует?
ПС: редактор PDF-файлов, который это делает, я пока не нашёл... подскажите.

mwz

12-05-2019, 10:31

flev45, так вы образец PDF-файла приложите — или так и будем ходить вокруг да около?

flev45

12-05-2019, 11:17

PDF- исходник и PDF, полученный из исходника в ABBYY FineReader 11, после удаления в pdf-файле всё ненужное при помощи функции "Ластик".
Именно в нём мне нужно удалить пустые зоны.

mwz

12-05-2019, 11:43

PDF- исходник »

Странный PDF... При автораспознавании Файнридер берёт часть его как текст — а часть как картинку. Чем вы его создавали (какой программой)?

Результат приложен (в zip-архиве).

flev45

12-05-2019, 12:04

Я его получил конвертированием из файла HTML to PDF на этом сайте:
https://html2pdf.com/ru/
Может есть какие-то ресурсы лучше этого?

mwz

12-05-2019, 12:16

Может есть какие-то ресурсы лучше этого? »

Даже без ресурсов — есть масса способов. Например, сохранить страницу как HTML и открыть сохранённый файл в Word — на что уже намекалось в предыдущей теме.

flev45

12-05-2019, 12:36

Уважаемый,
я это уже делал, посмотрите сами на результаты. выход тогда нашёл в HTML to PDF.
Никогда не думал, что настолько сложно/невозможно удалить часть текста из страниц pdf-файла.
Предложите ещё пару-тройку других способов. Намекните. Спасибо.

mwz

12-05-2019, 12:47

посмотрите сами на результаты »

Ну надо не только на текст смотреть... Можно поднять глаза чуть выше и увидеть в Word-2010:

http://www.imageup.ru/img125/thumb/wodrprotected3362739.jpg (http://www.imageup.ru/img125/3362739/wodrprotected.gif.html)

flev45

12-05-2019, 13:04

...я знаю, что вы не любите "картинок":)
Но всё-же посмотрите на скрин того, что у меня показывает Word-2010
А если серьёзно, то главное: как и чем можно удалить "пустые" зоны на страницах pdf-документа?

ПС: кажется и тут я нашёл решение -прога priprinter, это то, что мне надо?

mwz

12-05-2019, 13:51

на скрин того, что у меня показывает Word-2010 »

И что, не редактируется?

Посмотрите на скрин Word-2010 до (слева от красной черты) и после (справа) редактирования в нём двух страниц вашего предыдущего вложения. Я что-то не то, что вы имеете в виду, делал?

Кстати, есть масса PDF-принтеров и редакторов, в т.ч. бесплатных, например:
— doPDF
— pdf24-creator
— PDFCreator
— SumatraPDF
и т.д.

Iska

12-05-2019, 14:01

flev45, я в очередной раз пытаюсь донести до Вас простую мысль, что Вам нужно было просто скопировать потребное текстовое содержимое из браузера, вставить его в документ Microsoft Word, отредактировать, и только потом пытаться делать pdf из откорректированного документа Microsoft Word.

flev45

12-05-2019, 14:20

flev45, я в очередной раз пытаюсь донести до Вас простую мысль »
Уважаемые, а я пытаюсь донести мысль, что мне нужен не просто текст из страницы блаузера, а получить такой же документ. как по форме, так и по содержанию из HTML/PDF - файлов, но БЕЗ не нужных мне "строк". В шапке и далее я прикреплял файло-документы, из которых мне, к примеру, надо удалить все строки, не относящиеся к продажам... мне это удалось, но осталась куча "пустых" областей на страницах.
В этом проблема... надеюсь, что была. Буду пробовать прогу priprinter...
И что, не редактируется? »
Что там редактировать? Текст, который сикось-накось.

a_axe

12-05-2019, 19:42

Уважаемые, а я пытаюсь донести мысль, что мне нужен не просто текст из страницы блаузера, а получить такой же документ. как по форме, так и по содержанию из HTML/PDF »
flev45, вам выше вам предложен именно этот результат, просто для этого нужно выполнять все ваши действия, но в другом порядке.
Есть такое избитое выражение: картошку сначала моют, потом чистят, потом режут, потом кидают в суп. Теоретически можно сначала порезать, потом почистить, но на практике...
но БЕЗ не нужных мне "строк". »
Вот не уверен, что это строки.
В Word текстовое содержимое к страницам никак не привязано (это очень ощутимо при доступе к тексту на VBA). Без проблем можно поменять ориентацию или даже формат каждого листа - Word "перенарежет" содержимое, и всего делов.
В pdf - наоборот, документ изначально побит на страницы, содержимое каждой страницы привязано к этой самой странице. То есть "строки" удалить со сдвигом всего содержимого вверх просто не получится - последующее содержание от предыдущего никак не зависит. Даже содержимое pdf вроде выносок можно таскать в пределах страницы, но нельзя перетащить на соседнюю - выноску нужно вырезать через ctrl+x, и вставить уже на другой странице. А со страницы на страницу - никак. И формат страницы тоже уже не поменять.

Тут правда вопрос тонкий - возможно в Corel Draw или Acrobat Pro это и реализуемо, давно не имел дела.

Что там редактировать? Текст, который сикось-накось. »
Это результат преобразования pdf, а не сам исходный файл как таковой, однако в моем восприятии pdf примерно так и устроен.

Текст в pdf занимает конкретное место страницы, и в вашем Word получается полная аналогия: рамки с текстовым содержимым, которые как раз таки можно зафиксировать на странице - можно хоть весь текст удалить, а рамка будет висеть на своем месте. Вы в word можете выполнить весь документ с помощью текстовых блоков (рамочки с текстом) и получить ровно те же проблемы: блоки можно зафиксировать, и тогда удаление лишних блоков соседние блоки не заденет.

В pdf это четко видно при работе с чертежами из autocad - весь текст полученный из автокадовских шрифтов в редакторе отображается с рамочкой, которая показывает границы текстового объекта, а совсем не "строка", вот именно текстовой объект (в acrobate правда отображение по умолчанию отключено). Как я понимаю, даже таблицу pdf воспринимает просто как набор текста и линий, никак друг с другом не связанных.

Я его получил конвертированием из файла HTML to PDF на этом сайте: »
Соответственно, если его открыть например в html редакторе и обработать в нем, а потом перевести в pdf?

flev45

13-05-2019, 10:06

Соответственно, если его открыть например в html редакторе и обработать в нем, а потом перевести в pdf? »
Я практик, не теоретик. Вот с этим я согласен безоговорочно. больше того, в моём случае, чтобы легче было ориентироваться и удалять "области" в html редакторе, алгоритм должен быть такой:
1. Перевод HTML to PDF
2. PDF to ABBYY FineReader 11
3. При помощи функции "Ластик" удаляем со страниц всё лишнее
4. Полученный PDF to HTML
5. В HTML удаляем эти пустые области в редакторе
6. Полученный HTML переводим в PDF
Всё. Я должен получить PDF, в моём случае документ "Продажи", без инфы (строк) по покупкам.
ПС: с autocad, в том числе, я работал 40 лет тому, на самых первых персоналках Apple... тогда ещё никому не известных:)