Nieuw lid |
|
Om PDF bestandjes doorzoekbaar te maken wilde ik de tekst van het pdf-je converteren naar tekst of html om dit in een database op te kunnen slaan.
Na veel zoeken kom ik toch wel tot de conclusie dat er twee tot drie opties zijn:
:rechts: 1. PDFtoHTML
Dit schijnt een progje te zijn dat PDF bestandjes om kan zetten in HTML. Nu kan ik mijn host vragen dit te installeren, maar ik krijg geen informatie gevonden over hoe ik dit in mijn php script zou moeten aanroepen / gebruiken.
De vraag hierbij is: krijgt iemand hier tutorials van gevonden of heeft iemand er ervaring mee? Om je tijd te besparen: ik heb uren gezocht met diverse zoekmachines, maar omdat er veel van die gasten aan SEO doen kom je constant op dezelfde waardeloze zooi uit.
:rechts: 2. Met fread
Kelly McKiernan heeft op phpfreaks.com een stukje code geplaatst waarmee bepaalde info van pdf-jes uitgelezen zou moeten kunnen worden. Jammer genoeg is er een groot deel van weggevallen, maar wellicht dat jullie zijn/haar idee beter begrijpen dan ik.
Citaat: I too couldn't find what you were looking for, so I was forced to roll my own code. It's a bit rough, but you can use it as a basis to get meta information like Title, Version, Creator, etc. The sample below has six things it looks for, just add what you need in that array.
It doesn't always work perfectly but at least it's a starting point. [..code..]
:rechts: de pop mail uitlezen
De laatste mogelijkheid die ik zie is het sturen van mailtjes naar Adobe's online tool: pdf2txt@adobe.com of pdf2html@adobe.com. Vervolgens zou ik dan de pop mail uit moeten lezen en zo verder indexeren.
Hierbij voorzie ik enkele problemen, omdat ik begod niet weet hoe ik mn pop mail kan uitlezen, laat staan toegevoegde bijlagen. Daarnaast weet ik niet of Adobe blij zal zijn met zoveel requests en denk ik dat ik vrij lang kan wachten op een reply wanneer het om een groot pdf bestand gaat.
Mocht iemand andere opties weten, laat het dan zeker even weten!
:lamp: Voorkeur gaat overigens uit naar HTML i.p.v. tekst, omdat het dan nog mogelijk is om gewicht toe te kennen aan tags (bijv. <h.> tellen zwaarder dan gewone tekst). Maar ik ben al een gelukkig man wanneer ik tekst geretourneerd kan krijgen.
:!: Steek aub niet te veel van je vrije tijd in het zoeken van meer info voor mij, want daar ben ik al uren mee zoet geweest...
|