• T4CH
  • NEWS
  • VIDEO
Forum > Software

[Help] Programma per scaricare risultati di una ricerca

Discussione inserita in 'Software' da Chicca86, 9 Ottobre 2008.

  1. Chicca86 techNewbie

    [Help] Programma per scaricare risultati di una ricerca

    Ciao ragazzi, avrei bisogno di un aiuto.

    Mi servirebbe un programma per scaricare risultati di ricerca da siti come questo:



    http://www.blogpulse.com/search?que...oni%20and%20che



    dovrebbe scaricare tutti i link che vengono proposti in questa pagina, e nelle successive.



    Poi se qualcuno mi sa indicare un programma che trasforma l'html in testo ASCII vincerebbe il nobel per la mia gratitudine. Per spiegare meglio mi servirebbe una procedura veloce che mi permette di



    1) Scaricare tutti gli interventi di blog selezionati da questo motore di ricerca

    2) Convertire gli interventi (possibilmente in gruppo, non uno ad uno perchè spesso superano il migliaio) da formato HTML nel solo testo che contiene il messaggio (senza tag, colonne di destra o sinistra etc etc.)



    Qualcuno mi può aiutare? Grazie!:)
    Chicca86, 9 Ottobre 2008
    #1
  2. Davide Amministratore

    E' fattibile, conosci un pò di php? Lo script lo farei con quel linguaggio io :)
    Davide, 9 Ottobre 2008
    #2
  3. Chicca86 techNewbie

    Mi dispiace, ma per quanto riguarda il computer so solo usare applicazioni e risolvere qualche problema, ma oltre l'html non conosco nessun linguaggio, figuriamoci quello di programmazione :( il problema è che i programmi che ho trovato fino ad adesso (WinHTTrack) mi scaricato il sito www.blogpulse.com, non mi scaricano i risultati di ricerca, purtroppo c'è una sfilza di opzioni per settare la ricerca, ma non riesco a capire, quale, e se è possibile, attiva il download anche dei link esterni al sito che sto scaricando!
    Chicca86, 9 Ottobre 2008
    #3
  4. Falko techBoss

    Su Windows non saprei dirti, mentre su linux per il punto 2 ti direi che si può usare l'utility da riga di comando "html2txt" :)



    Falko
    Falko, 9 Ottobre 2008
    #4
  5. Davide Amministratore

    E' disponibile anche su Windows :)
    Davide, 9 Ottobre 2008
    #5
  6. Chicca86 techNewbie

    scusate ma non ho capito :( :eek:o:
    Chicca86, 9 Ottobre 2008
    #6
  7. Falko techBoss

    Visto che esiste anche per Windows...

    Scarichi html2txt, lo copi nella cartella c:windowssystem32 (in questo modo lo avvii da qualsiasi posizione alla riga dei comandi...), quindi "start" -> "esegui" -> "cmd" ed appare il prompt, qui digiti "cd Desktop" e quindi "html2txt [html_da_convertire] [file_di_destinazione]"



    Es:

    html2txt http://www.google.it google.txt



    e viene creato il txt di nome google.txt :)



    Falko
    Falko, 9 Ottobre 2008
    #7
  8. Chicca86 techNewbie

    grazie ragazzi siete dei tesori :) però così riesco a convertire il testo di un sito txt, ma adesso mi servirebbe un programma che mi permette di scaricare tutti i siti che un motore di ricerca ti seleziona.
    Chicca86, 11 Ottobre 2008
    #8
  9. Falko techBoss

    Tutti i siti in che senso? la pagina che li elenca oppure ogni sito che ti appare?

    - Se è la prima, file - salva con nome (dal browser);

    - Se è la seconda puoi provare usando un programma per la gestione dei downloads, tipo Free Download Manager che ti permette di scaricare tutti i links elencati in una determinata pagina :)



    Falko
    Falko, 11 Ottobre 2008
    #9
  10. Chicca86 techNewbie

    uffa, sei veramente gentilissimo... ho scaricato il programma che mi hai detto, era quello che mi serviva, però quando provo a scaricare le pagine di ricerca di quel sito (come questo link: http://www.blogpulse.com/search?query=Politica and che &start_date=20080415&end_date=20080415) mi dice accesso rifiutato nome utente o password non validi :( Ma per fare la ricerca non richiede mai nome utente e pw, e neanche per salvare la pagina manualmente, non capisco. avvilita :(
    Chicca86, 12 Ottobre 2008
    #10
  11. Falko techBoss

    E' probabile che si tratti di un link del motore di ricerca che ingloba le credenziali dell'url, di solito questo sistema si usava per evitare che i "bot" di internet "floddassero" (innondassero di dati) i server rendendo le pagine irraggiungibili.

    Hai provato a fare la stessa procedura da un altro motore di ricerca tipo Google? E' possibile che sia un problema localizzato ;)2



    Falko
    Falko, 12 Ottobre 2008
    #11
  12. Chicca86 techNewbie

    Su google ancora peggio, quando faccio scaricare il link di un risultato di ricerca e lo converto poi in txt mi esce una cosa come questa



    <!doctype html><head><meta http-equiv=content-type content="text/html; charset=ISO-8859-1"><title>google - Google Search</title><style>body{background:#fff;color:#000;margin:3px 8px}#gbar{height:22px;padding-left:2px}.gbh,.gbd{border-top:1px solid #c9d7f1;font-size:1px}.gbh{height:0;position:absolute;top:24px;width:100%}#gbi,#gbs{background:#fff;left:0;position:absolute;top:24px;visibility:hidden;z-index:1000}#gbi{border:1px solid;border-color:#c9d7f1 #36c #36c #a2bae7;z-index:1001}#guser{padding-bottom:7px !important}#gbar,#guser{font-size:13px;padding-top:1px !important}@media all{.gb1,.gb3{height:22px;margin-right:.73em;vertical-align:top}#gbar{float:left}}.gb2{display:block;padding:.2em .5em}a.gb1,a.gb2,a.gb3{color:#00c !important}.gb2,.gb3{text-decoration:none}a.gb2:hover{background:#36c;color:#fff !important}.ts{border-collapse:collapse}.ts td{padding:0}.ti,.bl{display:inline}.ti{display:inline-table}.fl:link,.gl a:link{color:#77c}a:link,.w,#prs a:visited,#prs a:active,.q:active,.q:visited{color:#00c}.mblink:visited,a:visited{color:#551a8b}a:active{color:red}.cur{color:#a90a08;font-weight:bold}.b{font-weight:bold}form{display:inline}.j{width:42em}.s{max-width:42em}.j{font-size:82%}.j font[size="-1"]{font-size:100%}.e .j{font-size:100%}.e .j font[size="-1"]{font-size:82%}#gb{text-align:right;padding:1px 0


    è più difficile di quanto pensassi fare questa cosa. Fare copia incolla per 13000 risultati di una ricerca ci metto troppo :(
    Chicca86, 12 Ottobre 2008
    #12
  13. Falko techBoss

    Ti da quel risultato perchè il programma usato non ha evidentemente convertito la pagina (quel codice è Html), rivedi la procedura che stai usando e verifica di fare tutto correttamente...



    Ps: non vedo l'utilità di salvare una ricerca così corposa considerando che i contenuti sul web cambiano di continuo e che ti servirebbero svariate settimane per poterli vedere tutti...



    Falko
    Falko, 12 Ottobre 2008
    #13
  14. Chicca86 techNewbie

    Il fatto Falko è che io poi userei un programma che analizza automaticamente il testo scritto (TalTAC ad esempio) e con una certa approssimazione potrei capire come cambiano i contenuti delle pagine in un modo estremamente veloce, però se ci metto una eternità a fare questo testo scritto il guadagno si perde, comunque anche se provo a scaricare la pagina con il programma che mi hai suggerito e provo a convertirlo con Html2txt mi da sempre codice. Se invece scarico con salva pagina e uso Html2 mi da proprio il risultato che mi serviva. Comunque provo ancora a provarci, è probabile che stia sbagliando qualcosa con free download ;)
    Chicca86, 12 Ottobre 2008
    #14
  15. Falko techBoss

    Interessante il sistema che usi (regex su testi da pagine scaricate...).



    Vedo se riesco a farmi venire in mente qualche cosa per Windows (da Linux te la programmerei una cosa simile..)



    Falko
    Falko, 12 Ottobre 2008
    #15
Password dimenticata?
SU TERMINI DI SERVIZIO CONTATTACI