login  Naam:   Wachtwoord: 
Registreer je!
 Forum

Gelijkwaardige titels 'groeperen'

Offline Webtijn - 24/12/2009 12:55 (laatste wijziging 24/12/2009 12:56)
Avatar van WebtijnPHP interesse Hallo,

Ik zit met een lastig programmeer probleem. Op een site haal ik uit verschillende feeds headlines op (van bijv. voetbalteams). Omdat ik van verschillende sites de feeds ophaal, kan het zo zijn dat er van twee sites verschillende titels worden opgehaald die hetzelfde betekenen. Een voorbeeld:

Op site A staat een bericht met de titel:
'Boerrigter: "Tegen Ajax en Twente niet spelen was een teleurstelling"'

En op siteB staat een bericht met de titel:
'Boerrigter had graag tegen Ajax en Twente gespeeld'.

Het is de bedoeling dat ik, net als op www.voetbaltribune.nl het geval is, deze twee titels 'groepeer' en herken dat ze over hetzelfde gaan.

Hebben jullie suggesties hoe je zoiets verwezenlijkt? Ik heb natuurlijk al wat zitten brainstormen, bepaalde waarden van minder dan x letters een lagere waarde geven, aantal keren dat dezelfde woorden overeenkomen tellen, etc, etc.. maar ben erg benieuwd wat jullie visie hierop is!

Alvast bedankt,
Webtijn

3 antwoorden

Gesponsorde links
Offline Martijn - 24/12/2009 13:09 (laatste wijziging 24/12/2009 13:09)
Avatar van Martijn Crew PHP ik gebruikte toevallig laatst de PHP.net: levenshtein functie, moet je maar is naar kijken
Offline Webtijn - 24/12/2009 13:16
Avatar van Webtijn PHP interesse Yep, die functie heb ik ook al bekeken.. maar na een paar testjes ermee te hebben gedaan, bleek dat hij niet helemaal voldeed (titels die juist niets met elkaar te maken hadden, werden ook als gelijkwaardig gezien). Dus ik moet d'r nog een extra filter o.i.d. aan toevoegen denk ik..
Offline TotempaaltJ - 24/12/2009 19:59
Avatar van TotempaaltJ PHP interesse Daar onder die functie staan een heleboel aanpassingen en verbeteringen van PHP gebruikers, daar ook al doorheen gekeken?
Gesponsorde links
Dit onderwerp is gesloten.
Actieve forumberichten
© 2002-2024 Sitemasters.be - Regels - Laadtijd: 0.176s