Message d'avertissement

The subscription service is currently unavailable. Please try again later.

[résolu] Indexation plein texte de fichiers avec Solr

Information importante

En raison d'un grand nombre d'inscriptions de spammers sur notre site, polluant sans relache notre forum, nous suspendons la création de compte via le formulaire de "sign up".

Il est néanmoins toujours possible de devenir adhérent•e en faisant la demande sur cette page, rubrique "Inscription" : https://www.drupal.fr/contact


De plus, le forum est désormais "interdit en écriture". Il n'est plus autorisé d'y écrire un sujet/billet/commentaire.

Pour contacter la communauté, merci de rejoindre le slack "drupalfrance".

Si vous voulez contacter le bureau de l'association, utilisez le formulaire disponible ici, ou envoyez-nous un DM sur twitter.

Bonjour,

J'ai installé Solr 3.6 avec Tika 1.3. J'ai un site drupal 7.15 avec les modules "search api solr integration", "facet api", "solr attachment".

Lors de mon premier essai avec ces modules, je n'avais pas installé "file entity". J'ai créé un index sur les noeuds: Texte et Icône (2 types de contenu); et j'ai coché la case Fichier en-dessous.
Ma config de Tika:
- extract using : Tika
- Tika directory : /var/opt/apache-solr-3.6.2/tika-app/
- Tika jar file : tika-app-1.3.jar
J'ai installé tika dans apache-solr.../tika-app/ et le test fonctionne. J'ai ré-indexé, mais la recherche plein texte ne fonctionnait pas.

Ensuite, j'ai trouvé un article qui conseillais d'utiliser file entity. Je l'ai donc installé et dans la configuration de l'index j'ai coché Fichier de type Image, audio, video et document. Là cela marche. pourquoi? comment?

Vous pouvez voir, resultats.jpg :
1 )
Pour l'exemple, j'ai un Texte qui a pour Titre: "test plein texte" et un fichier pdf contenant : "Test Trone de fer". SI je cherche le terme "test" alors le Texte et le pdf sont retournés séparément. Le snippet du fichier contient un lien vers le Texte. Cela donne 2 resultats, alors que je n'en voudrait qu'un.

2 )
Drupal est installe pour le groupe et l'user www-data.
Je lance solr avec Jetty: sudo java -jar start.jar. Solr est installe pour le groupe et l'utilisateur root.
Par contre, les résultats de type Document (=Fichier) ne sont affichés que si je fais la recherche avec le compte d'administration. Non connecté ou avec un autre rôle, les fichiers ne s'affichent pas dans les résultats. ? D'où cela peut venir ?
Tous les fichiers sont dans /files/transcriptions du meme groupe/user que drupal: www-data.

3 )
Pour une raison qui m'échappe aussi (une de plus , sigh), les .doc et .pdf sont "bien" indexé mais les html ne le sont pas . Evidemment, ce sont les plus fréquents.
En ligne de commande, si je teste:
java -jar [@chemin1]/tika-app-1.3.jar -h [@chemin]/test_court.html
Cela fonctionne.
Il faudrait que les fichiers html soient indexés.

Fichier attachéTaille
Icône image resultats.JPG73.96 Ko
Version de Drupal : 

Je réponds au 3ème point. Il fallait ajouter les type mimes html (text/html) dans la configuration de "File Entity".
Plus que 2 / 3 !

Mettons que je passe sur le n°1; après tout si il ne répond pas tout à fait a ce que je souhaitais, il ne vas pas contre.

Mais il faudrai VRAIMENT que je trouve pourquoi seul le rôle admin peut voir les résultats de recherche de type fichier !
Merci de votre aide.

Personne ne sait comment faire pour qu'un Noeud qui a pour Titre: "test plein texte" et un fichier pdf contenant : "Test Trone de fer" lié au noeud précédent, "test plein texte", ne retourne qu'un seul enregistrement et pas deux: 1 pour le noeud et un autre pour le fichier?
ALors que je voudrais que seul le noeud soit retourné.
Merci de votre aide :)

Bonjour,

Question plutôt complexe !

Je te dirais bien de ne simplement pas référencer tes fichiers pdf... Et de faire la liaison sur le node. Normalement selon ta configuration de solr tu devrait indexser le PDF en même temps que le node...

Mais je ne vois pas trop comment faire autrement...

Comment gère tu l'association des fichiers ? champ file ou entity_reference ?

Bonjour,
J'ai crée un type de contenu : Texte (basé sur node) dans lequel j'ai des champs de type Fichier (champs File).
"Et de faire la liaison sur le node. Normalement selon ta configuration de solr tu devrait indexser le PDF en même temps que le node..." => c'est ben ce que j'aimerais faire mais je n'ai rien vu tel dans la config de solr ou du module sous drupal.

Saurais-tu où? :D