Paperless-ngx: (Libre-) Office Dateien verwalten (2024)

In den letzten Artikel über Paperless-ngx bin ich nur auf die Verwaltung von PDF-Dateien eingegangen. Nun kommt es aber unregelmäßig bei mir auch immer mal wieder vor, dass ich Office-Dokumente mit LibreOffice erstelle, also z. B. eine Kündigung schreibe, die ich dann entweder als PDF oder aber als Papierbrief versende.

Das PDF kann man natürlich direkt in Paperless-ngx zur Archivierung ablegen. Aber was ist mit dem Office-Dokument? Das Original einfach auf dem Notebook lassen? Dann bräuchte man hier aber auch wieder eine Ablagestruktur. Oder das Original einfach vergessen? Auch doof. Kündigungsschreiben und Co. lassen sich ja ziemlich gut recyceln. Also ist es nicht schlecht, wenn man dies immer als Template verfügbar hat.

Für dieses Problem gibt es in Paperless-ngx seit einiger Zeit auch eine Lösung. Neben einfachen Text-Dokumenten, PDFs und JPEGs, die schon immer verarbeitet werden können, können dank der Integration von Tika und Gotenborg nun auch Office-Dokumente abgelegt werden.x

Workflow

Die Office-Dokumente können damit, genauso wie PDFs, einfach in Paperless-ngx per Webinterface oder Consume-Ordner hochgeladen werden und Paperless-ngx erstellt eine PDF-Version des Dokuments. Das Verhalten ist also erst mal nicht anders, als wenn man direkt ein PDF hochläd. Der Unterschied: Über den Button Download Original, erhält man das Office Dokument zurück und kann dieses wieder weiter verarbeiten.

Paperless-ngx ist hier sicher kein Ersatz für eine mächtige Lösung wie Sharepoint. Aber es geht hier ja auch um das private Büro. Für die wenigen Briefe und Dokumente ist dieser Worflow allemal ausreichend. Und der große Vorteil: Wirklich alle Dokumente befinden sich in Paperless-ngx. Ein Notebook-Wechsel oder -Crash ist also kein ernsthaftes Problem mehr. Auf dem Notebook befinden sich immer nur temporäre Dateien.

Paperless-ngx ist also die “Single Source of Truth”.

Setup Tika & Gotenborg

Setup Dokumentation: Link zur Doku

Link zur Beispielkonfiguration in Github: Link zu Github

Das Setup ist schnell erledigt. Letztendlich müssen nur ein paar wenige Handgriffe in der docker-compose.yml erledigt werden. Hierfür kann man sich am auf Github bereitgestellten Beispiel orientieren. Hat man die Abschnitte hinzugefügt, dann nur nur noch ein docker-compose up -d und schon läuft wieder alles.

Dokumente hochladen

In der Oberfläche und bei der Benutzung von Paperless-ngx hat sich erst mal nichts verändert. Einziger Unterschied: Es können nun eben auch (Libre-) Office Dokumente hochgeladen werden.

Nach dem erfolgreichen Upload erzeugt Paperless-ngx daraus ein PDF/A für die Archivzwecke und legt zudem das Original Office Dokument ab.

Dokumente herunterladen

Entsprechend können auch beide Varianten herunterladen werden. Klickt man auf den “Download”-Button, wir einem das PDF/A zum Herunterladen angeboten. Klickt man auf den “Download original”-Button im Kontextmenü, erhält man das Office-Dokument zurück.

Automatische Klassifizierung

Der Workflow hat nun noch einen Nachteil. Man kann auf den ersten Blick in Paperless-ngx nicht erkennen, ob man nun ursprünglich ein PDF-Dokument oder ein Office-Dokument hochgeladen hat.

Zur Erinnerung, mein persönlicher Workflow sieht so aus:

  • Ich erstelle ein Dokument mit LibreOffice.
  • Versende ich dieses als Brief (Papier und Briefmarke und so), dann scanne ich dieses Dokument vor dem Absenden für die Archivzwecke ein.
  • Versende ich das Dokument als PDF, dann erzeuge ich aus Libreoffice heraus das PDF und hebe auch dieses PDF auf.
  • Nun archiviere ich sowohl das PDF als auch das LibreOffice Dokument.

Der Nachteil: Lade ich PDF und LibreOffice Dokument gleichzeitig in Paperless-ngx hoch, kann ich zwischen den beiden erst mal nicht mehr unterscheiden. Hierfür müsste ich erst per “Download original”-Button prüfen, ob es sich nun um das archivierte PDF oder das LibreOffice Dokument handelt und manuell einen Tag vergeben.

Paperless-ngx: (Libre-) Office Dateien verwalten (1)

Leider unterstützt Paperless-ngx das Klassifizieren anhand des Dateinamens nicht. Sonst könnte man einfach eine entsprechende Regel für einen Tag oder Document Type festlegen bzw. auf das neuronale Netzwerk setzen. Aber Dateinamen und Dateitypen werden nicht ausgewertet.

Es muss also ein wenig tiefer in die Trickkiste gegriffen werden. Wir benötigen zwei Tools von Paperless-ngx:

  • Die REST Api: Hiermit können Dokumente in der Datenbank von Paperless-ngx bearbeiten. Also z.B. Tags hinzufügen oder den Document Type ändern. Natürlich können wir auch Informationen auslesen. Dokumentation zur REST API
  • Post-consumption scripte: Wir haben bei Paperless-ng die Möglichkeit, entweder bevor der Consumer gelaufen ist, in den Prozess einzugreifen oder hinterher. Dokumentation zu Post-consumption scripten

Bringen wir diese beiden Dinge zusammen, ist das Problem gelöst. Direkt nachdem der Consumer von Paperless-ngx gelaufen ist, also eine Datei zur Datenbank hinzugefügt hat, klassifizieren wir diese als Document Type “Office Document” anhand der Dateiendung.

Das passende Script sieht so aus:

#!/usr/bin/env bashDOCUMENT_ID=${1}DOCUMENT_FILE_NAME=${2}DOCUMENT_SOURCE_PATH=${3}DOCUMENT_THUMBNAIL_PATH=${4}DOCUMENT_DOWNLOAD_URL=${5}DOCUMENT_THUMBNAIL_URL=${6}DOCUMENT_CORRESPONDENT=${7}DOCUMENT_TAGS=${8}if [[ "$DOCUMENT_FILE_NAME" == *.ods ]];then curl -H "Authorization: Token 4a98c9f72f0e9337fdc2f56e0d574685cfef93e7" -X PATCH -d 'document_type=33' http://localhost:8000/api/documents/${DOCUMENT_ID}/fiif [[ "$DOCUMENT_FILE_NAME" == *.odt ]];then curl -H "Authorization: Token 4a98c9f72f0e9337fdc2f56e0d574685cfef93e7" -X PATCH -d 'document_type=33' http://localhost:8000/api/documents/${DOCUMENT_ID}/fi

Dieses Script muss nun noch so abgelegt werden, dass es innerhalb des Docker Containers verfügbar ist und auch nach einem Update des Containers nicht verloren geht.

Es bietet sich also an, das data-Verzeichnis zu verwenden, welches im docker-compose.yml so definiert ist:

 - data:/usr/src/paperless/data

Um nun den lokalen Pfad zu ermitteln, hilft ein docker volume inspect paperlessng_data:

docker volume inspect paperlessng_data [ { "CreatedAt": "2021-06-24T10:32:55+02:00", "Driver": "local", "Labels": null, "Mountpoint": "/var/lib/docker/volumes/paperlessng_data/_data", "Name": "paperlessng_data", "Options": null, "Scope": "local" }]

Also legen wir das Script einfach dort ab und sorgen dafür, dass es ausführbar ist. In meinem Fall wäre dies /var/lib/docker/volumes/paperlessng_data/_data.

Nun muss Paperless-ngx noch klar gemacht werden, dass es ein post-consumption script ausführen soll. Dies funktioniert wieder in der docker-compose.yml:

webserver: image: ghcr.io/paperless-ngx/paperless-ngx:latest [...] environment: [...] PAPERLESS_POST_CONSUME_SCRIPT: /usr/src/paperless/data/post_consume.sh

Im Anschluss kann Paperless-ngx mit docker-compose neu gestartet werden und nun wird automatisch bei jedem neu hochgeladenen ods- oder odt-Dokument der “Document Type” auf “Office Dokument” geändert. Es ist ab sofort also nun auf den ersten Blick in der GUI möglich, zwischen PDF und Office-Dokument zu unterscheiden.

Paperless-ngx: (Libre-) Office Dateien verwalten (2)

Wieder ein Schritt der die Dokumentenverwaltung im papierlosen privaten Büro deutlich vereinfacht.

Update 02/2022

Abschnitt nicht mehr relevant

Vielen Dank an svenpaush für diesen Hinweis: Aktuell stagniert die Entwicklung von Paperless-ng. Die Entwicklung von gotenberg und tika ging die letzten Monate jedoch weiter. Die API von Gotenberg hat sich mit den letzten Versionen geändert, so dass diese nicht mehr mit Paperless-ng zusammenpassen. Damit das Zusammenspiel wieder funktioniert, muss man im docker-compose.yml die Versionen von Gotenberg und Tika festlegen:

 gotenberg: image: thecodingmachine/gotenberg:6... tika: image: apache/tika:1.27

Ich habe das docker-compose.yml im Artikel entsprechend ergänzt.

Update 07/2022

Nachdem die Entwicklung mit Paperless-ngx nun wieder Fahrt aufgenommen hat, hat sich auch das Docker-Compose File und die Versionen der Container geändert. Am besten ist es sich an das offizielle Docker-Compose auf Github zu halten:Link zum Docker Compose auf Github

Die unter dem Update 02/2022 genannten Anpassungen sind nicht mehr notwendig.

Die im folgenden genannten Anpassungen bzgl. Port 3000, sind bei mir nicht mehr notwendig, da ich aktuell kein Grafana mehr verwende. Der Vollständigkeit halber, lasse ich das alte Beispiel hier jedoch stehen, kann aber nicht sagen, ob die Konfiguration mit Paperless-ngx so noch funktionieren würde:

Auf meinem Rechner ist jedoch bereits Port 3000 von Grafana belegt. Der Port von Gotenborg musste also von mir auf 3001 angepasst werden. Die zugehörigen Auszüge aus meinem docker-compose.yml sehen also so aus:

...webserver: image: jonaswinkler/paperless-ng:latest restart: always depends_on: - db - broker - gotenberg - tika ports: - 8000:8000 volumes: - data:/usr/src/paperless/data - media:/usr/src/paperless/media - ./export:/usr/src/paperless/export - /home/rs/consume:/usr/src/paperless/consume env_file: docker-compose.env environment: PAPERLESS_REDIS: redis://broker:6379 PAPERLESS_DBHOST: db PAPERLESS_TIKA_ENABLED: 1 PAPERLESS_TIKA_GOTENBERG_ENDPOINT: http://gotenberg:3001 PAPERLESS_TIKA_ENDPOINT: http://tika:9998 gotenberg: image: thecodingmachine/gotenberg:6 restart: unless-stopped environment: DISABLE_GOOGLE_CHROME: 1 DEFAULT_LISTEN_PORT: 3001 tika: image: apache/tika:1.27 restart: unless-stopped

Um das Port-Problem zu lösen, ist der modifizierten Eintrag PAPERLESS_TIKA_GOTENBERG_ENDPOINT bei webserver und der zusätzliche Parameter DEFAULT_LISTEN_PORT bei gotenborg notwendig. Der Rest entspricht dem Template von Github.

Dank & Feedback

Titel-Photo by Maarten van den Heuvel on Unsplash

Ich freue mich über Feedback. Schreibt mir gerne per Mastodon.

  • Papierloses Buero
  • Paperless Office
  • Dokumentenverwaltung
  • PaperlessNGX
  • Paperless-ngx
  • LibreOffice
Paperless-ngx: (Libre-) Office Dateien  verwalten (2024)

FAQs

How does paperless-ngx work? ›

Paperless will create an archivable PDF/A document from your document. If this document is coming from your scanner, it will have embedded selectable text. Paperless performs automatic matching of tags, correspondents and types on the document before storing it in the database.

Where are paperless-NGX documents stored? ›

A: Your documents are stored as plain files inside the media folder. You can always drag those files out of that folder to use them elsewhere. Here are a couple notes about that. Paperless-ngx never modifies your original documents.

What is the first login of paperless-NGX? ›

Default login is admin:admin via the webui, accessible at http://SERVERIP:PORT More info at paperless-ngx.

What is the difference between paperless archive and originals? ›

Paperless stores archived PDF/A documents alongside your original documents. These archived documents will also contain selectable text for image-only originals. These documents are derived from the originals, which are always stored unmodified.

How do you go paperless step by step? ›

7 Easy Tips to Finally Go Paperless
  1. What Does Paper-Free Mean? ...
  2. Ignore the Backlog. ...
  3. Get These 4 Apps. ...
  4. Pick a Storage Service. ...
  5. Sign Up for Digital Statements and Payments, and Remove Yourself From Mailing Lists. ...
  6. Scan and Shred New Incoming Papers. ...
  7. Develop Other Workflows. ...
  8. Don't Overthink It.

Is paperless good or bad? ›

Going paperless can save your business nearly $50,000 per year. Not only does going paperless in the office allow your business to reduce spending on printer paper and other supplies, it can also save your company money by reducing the costs of storing and distributing paper documents.

How do I convert my office to paperless? ›

How to create a paperless office
  1. Provide tools and training for staff. ...
  2. Make it easier to work without paper. ...
  3. Move/remove printers and copiers. ...
  4. Devise a new paperless filing system. ...
  5. Switch from file cabinets to digital storage.
  6. Enable digital scanners. ...
  7. Integrate with business operations. ...
  8. Replace fax machines.

What is the default admin for paperless? ›

Default login is admin:admin via the webui, accessible at http://SERVERIP:PORT More info at paperless-ng.

How do I add documents to paperless? ›

Go to the transaction and click [Upload Docs] from the left menu. To drag and drop, open a second window showing the docs you want to upload. Select the desired documents, then drag them to the “Drag docs here” area.

How to install paperless ngx on windows? ›

You can go multiple routes to setup and run Paperless:
  1. Use the easy install docker script.
  2. Pull the image from Docker Hub.
  3. Build the Docker image yourself.
  4. Install Paperless directly on your system manually (bare metal)
  5. A user-maintained list of commercial hosting providers can be found in the wiki.

How does paperless work? ›

Use Paperless Signatures - using electronic signature software like Docusign eSignature eliminates the need to print, sign, scan or post contracts and documents. Instead of using paper documentation, documentation management software and systems can help you to digitise processes.

Why switch to paperless? ›

Some of the key takeaways of going paperless are: Cost savings from reducing paper, ink, and equipment costs. Speed up processes and make information more easily accessible by digital means. Better document organization and retrieval through the use of digital document management systems.

Can a PDF be an original document? ›

It's important to note that the electronic signature is performed on your digital document that is in a PDF format. Only this PDF is considered as an original and has legal value. Any electronic copy of the signed document is also an original if it has not been altered.

What happens when you go paperless? ›

Faster access. Your statement is available as soon as it's processed by your provider, letting you access it more quickly than waiting for mail delivery. Protect your information. Paperless statements can reduce the chances of identity theft, eliminating the risk of mail theft, and reducing the chances of ID theft.

What is the best way to archive digital files? ›

Here are some of the best ways to archive data in 2024:
  1. Multi-Cloud Storage. Many organizations are turning to the cloud to ensure your data is safe and secure. ...
  2. Create Your Own Data Lake. ...
  3. Cloud Archiving Services. ...
  4. Tape Archiving. ...
  5. On-site Backups. ...
  6. Network Storage. ...
  7. Optical Disk Archiving. ...
  8. Magnetic Hard Drives.

How does paperless pay work? ›

With paperless pay, businesses complete all forms of payment online rather than on paper. Employees can conveniently access payment-related information online and receive paychecks by direct deposit.

How does a paperless system work? ›

A paperless document management system captures and stores information digitally on a single platform with integrated search options. In order to ease the change from paper to digital, you can start by: Determining the right solution.

How does Paperless Post work? ›

Send directly to your guests via email or text message to track deliveries and opens. Share a link anywhere you want without tracking deliveries or opens. Access Premium Blocks, Custom URL, Custom Emails, and more.

Top Articles
What Is Paperless Workflow Automation and How Can It Improve My Office?
Paperless Workflow: 7 Reasons to Adopt it in Your Office - Cflow
Corgsky Puppies For Sale
Pwc Transparency Report
Spectrum Store Appointment
Edutone Skyward
Goodbye Horses : L'incroyable histoire de Q Lazzarus - EklectyCity
Growing At 495%, Saviynt Says It Prevails Over SailPoint In $20B Market
Best Zyn Flavors Ranked
Munsif Epaper Urdu Daily Online Today
Scary Games 🕹️ | Play For Free on GamePix
Osu Worday
Redbox Locations Walmart
Ju Hua (Flos Chrysanthemi): Uses, Benefits, Side Effects, Warnings
Kinoprogramm für Berlin und Umland
Metalico Sharon Pa
Does Publix Pharmacy Accept Sunshine Health
Sitel Group®, leader mondial de l’expérience client, accélère sa transformation et devient Foundever®
Ff14 Cloth Softening Powder
Binny Arcot
Shae Cornette Bikini
Dovob222
Immobiliare di Felice| Appartamento | Appartamento in vendita Porto San
Craigslist North Platte Nebraska
Craiglist Rhode Island
Seattle Clipper Vacations Ferry Terminal Amtrak
Aspenx2 Newburyport
Starter Blocked Freightliner Cascadia
Olentangy Calendar
Stellaris Remove Planet Modifier
Pcc Skilled Nursing Login
Sold 4 U Hallie North
Between Friends Comic Strip Today
Peloton Guide Stuck Installing Update
Pokerev Telegram
Academy Sports Meridian Ms
Panty Note Manga Online
Skyward Weatherford Isd Login
Drury Plaza Hotel New Orleans
Tmz Jennette Mccurdy And Joe
Studentvue Paramount
Craigslist For Port Huron Michigan
6173770487
Alylynn
Saratoga Otb Results
Walmart Supercenter Curbside Pickup
Fgo Spirit Root
Buhsd Studentvue
Potomac Edison Wv Outages
Siôn Parry: The Welshman in the red of Canada
German police arrest 25 suspects in plot to overthrow state – DW – 12/07/2022
Usps Passport Appointment Confirmation
Latest Posts
Article information

Author: Tuan Roob DDS

Last Updated:

Views: 6760

Rating: 4.1 / 5 (62 voted)

Reviews: 85% of readers found this page helpful

Author information

Name: Tuan Roob DDS

Birthday: 1999-11-20

Address: Suite 592 642 Pfannerstill Island, South Keila, LA 74970-3076

Phone: +9617721773649

Job: Marketing Producer

Hobby: Skydiving, Flag Football, Knitting, Running, Lego building, Hunting, Juggling

Introduction: My name is Tuan Roob DDS, I am a friendly, good, energetic, faithful, fantastic, gentle, enchanting person who loves writing and wants to share my knowledge and understanding with you.