ฉันจะคัดลอกข้อความจาก PDF ในขณะที่รักษาการจัดรูปแบบได้อย่างไร

PDF ซึ่งเป็นรูปแบบเอกสารที่แพร่หลายเป็นสิ่งที่ยอดเยี่ยมสำหรับการแชร์เอกสารในขณะที่รักษาแบบอักษรรูปภาพและเค้าโครงทั่วไปทั่วแพลตฟอร์ม มีวิธีที่ง่าย แต่เพื่อรักษารูปแบบที่มากเมื่อคัดลอกและวางข้อความออกจากเอกสาร?

เซสชั่นคำถามและคำตอบในวันนี้มาถึงเราด้วยความอนุเคราะห์จาก SuperUser - แผนกย่อยของ Exchange Exchange ซึ่งเป็นกลุ่มที่ขับเคลื่อนด้วยชุมชนของเว็บไซต์ถาม - ตอบ.

คำถาม

SuperUser reader Colen กำลังค้นหาวิธีการแยกข้อความจาก PDF ในขณะที่ทำการฟอร์แมต:

เมื่อฉันคัดลอกข้อความออกจากไฟล์ PDF และลงในตัวแก้ไขข้อความมันจะจบลงด้วยการจัดการหลายวิธี การจัดรูปแบบเช่นตัวหนาและตัวเอียงจะหายไป ตัวแบ่งบรรทัดที่อ่อนนุ่มภายในย่อหน้าของข้อความจะถูกแปลงเป็นตัวแบ่งบรรทัดที่ยาก เครื่องหมายขีดคั่นเพื่อแบ่งคำข้ามสองบรรทัดจะถูกเก็บรักษาไว้แม้ว่าจะไม่ควรเป็นก็ตาม และราคาเดียวและสองเท่าจะถูกแทนที่ด้วย? สัญญาณ.

เป็นการดีที่ฉันต้องการจะสามารถคัดลอกข้อความจาก PDF และมีการจัดรูปแบบการแปลงเป็นรหัส HTML, "อัญประกาศอัจฉริยะ" แปลงเป็น "และ" และ 'และแบ่งบรรทัดได้อย่างถูกต้อง มีวิธีใดบ้างในการทำเช่นนี้?

มีวิธีที่ง่ายและรวดเร็วสำหรับ Colen (และพวกเราที่เหลือ) ในการรับข้อความโดยไม่ต้องเสียรูปแบบ?

คำตอบ

ผู้สนับสนุน SuperUser Frabjous เสนอวิธีการรวมกับข้อควรระวังปริมาณมาก:

ประการแรกคุณต้องเข้าใจว่า PDF คืออะไร PDF ได้รับการออกแบบมาเพื่อเลียนแบบหน้าที่พิมพ์และได้รับการออกแบบเป็นรูปแบบเอาต์พุตไม่ใช่รูปแบบอินพุต PDF นั้นเป็นแผนที่ที่มีตำแหน่งที่แน่นอนของตัวอักษร (ตัวอักษรหรือเครื่องหมายวรรคตอน ฯลฯ ) หรือรูปภาพ ในกรณีส่วนใหญ่ PDF ไม่ได้จัดเก็บข้อมูลเกี่ยวกับที่หนึ่งคำลงท้ายและอื่นเริ่มต้นสิ่งที่น้อยมากเช่นตัวแบ่งอ่อนเมื่อเทียบกับตัวแบ่งหนักสำหรับย่อหน้าท้าย.

(PDF ล่าสุดไม่กี่แห่งจะเก็บข้อมูลบางอย่างเกี่ยวกับสิ่งนี้ แต่เป็นเทคโนโลยีใหม่และคุณโชคดีที่พบ PDF เช่นนั้นแม้ว่าคุณจะทำเช่นนั้นโปรแกรมดู PDF ของคุณอาจไม่ทราบ)

อย่างไรก็ตามมันก็ขึ้นอยู่กับซอฟต์แวร์ของคุณที่จะใช้“ ปัญญาประดิษฐ์” บางอย่างเพื่อแยกออกจากที่ตั้งของตัวละครแต่ละตัวว่าอะไรคือคำอะไรคือย่อหน้าและอื่น ๆ ซอฟต์แวร์ที่แตกต่างกันจะทำสิ่งนี้ได้ดีกว่าซอฟต์แวร์อื่นและจะขึ้นอยู่กับการสร้าง PDF ด้วย ไม่ว่าในกรณีใดคุณไม่ควรคาดหวังผลลัพธ์ที่สมบูรณ์แบบ การมีเอาต์พุต PDF ไม่เหมือนกับการมีเอกสารต้นฉบับ ดีกว่าที่จะลองรับว่าถ้าคุณสามารถ.

โซลูชันมาตรฐานสำหรับปัญหาของคุณคือการใช้ Adobe Acrobat Professional (อันที่แพงไม่ใช่ตัวอ่านฟรี) เพื่อแปลง PDF เป็น HTML แม้นั่นจะไม่ได้ผลลัพธ์ที่สมบูรณ์แบบ.

มีซอฟต์แวร์ฟรีที่สามารถใช้ดึงข้อความจาก PDF ด้วยการฟอร์แมตบางส่วนได้ แต่อย่าคาดหวังผลลัพธ์ที่สมบูรณ์แบบอีกครั้ง ดูเช่นขนาด (ซึ่งสามารถแปลงเป็นรูปแบบ RTF), pdftohtml / pdfreflow หรือโปรแกรมประมวลผลคำ AbiWord (เมื่อเปิดใช้งานปลั๊กอินการนำเข้า / ส่งออกทั้งหมด) นอกจากนี้ยังมีปลั๊กอินนำเข้า PDF สำหรับ OpenOffice.

แต่โปรดอย่าคาดหวังความสมบูรณ์แบบด้วยผลลัพธ์เหล่านี้ คุณกำลังต่อต้านข้าวที่นี่ PDF ไม่ได้หมายถึงรูปแบบอินพุตที่แก้ไขได้.

หากคุณมีปัญหาในการตัดสินใจว่าจะใช้เครื่องมือใดเริ่มต้น Caliber เป็นเอกสารมีดของ Swiss Army นอกจากนี้คุณยังสามารถใช้เพื่อแปลงไฟล์ PDF สำหรับใช้ในเครื่องอ่าน ebook ของคุณและจัดระเบียบห้องสมุด ebook / เอกสารของคุณ.

มีสิ่งที่จะเพิ่มคำอธิบายหรือไม่ ปิดเสียงในความคิดเห็น ต้องการอ่านคำตอบเพิ่มเติมจากผู้ใช้ Stack Exchange คนอื่นหรือไม่ ลองอ่านหัวข้อสนทนาเต็มได้ที่นี่.