[Help] Programma per scaricare risultati di una ricerca

Chicca86 · 9 Ottobre 2008

[Help] Programma per scaricare risultati di una ricerca

Ciao ragazzi, avrei bisogno di un aiuto.

Mi servirebbe un programma per scaricare risultati di ricerca da siti come questo:

http://www.blogpulse.com/search?que...oni%20and%20che

dovrebbe scaricare tutti i link che vengono proposti in questa pagina, e nelle successive.

Poi se qualcuno mi sa indicare un programma che trasforma l'html in testo ASCII vincerebbe il nobel per la mia gratitudine. Per spiegare meglio mi servirebbe una procedura veloce che mi permette di

1) Scaricare tutti gli interventi di blog selezionati da questo motore di ricerca

2) Convertire gli interventi (possibilmente in gruppo, non uno ad uno perchè spesso superano il migliaio) da formato HTML nel solo testo che contiene il messaggio (senza tag, colonne di destra o sinistra etc etc.)

Qualcuno mi può aiutare? Grazie!

Davide · 9 Ottobre 2008

E' fattibile, conosci un pò di php? Lo script lo farei con quel linguaggio io

Chicca86 · 9 Ottobre 2008

Mi dispiace, ma per quanto riguarda il computer so solo usare applicazioni e risolvere qualche problema, ma oltre l'html non conosco nessun linguaggio, figuriamoci quello di programmazione il problema è che i programmi che ho trovato fino ad adesso (WinHTTrack) mi scaricato il sito www.blogpulse.com, non mi scaricano i risultati di ricerca, purtroppo c'è una sfilza di opzioni per settare la ricerca, ma non riesco a capire, quale, e se è possibile, attiva il download anche dei link esterni al sito che sto scaricando!

Falko · 9 Ottobre 2008

Su Windows non saprei dirti, mentre su linux per il punto 2 ti direi che si può usare l'utility da riga di comando "html2txt"

Falko

Davide · 9 Ottobre 2008

E' disponibile anche su Windows

Chicca86 · 9 Ottobre 2008

scusate ma non ho capito o:

Falko · 9 Ottobre 2008

Visto che esiste anche per Windows...

Scarichi html2txt, lo copi nella cartella c:windowssystem32 (in questo modo lo avvii da qualsiasi posizione alla riga dei comandi...), quindi "start" -> "esegui" -> "cmd" ed appare il prompt, qui digiti "cd Desktop" e quindi "html2txt [html_da_convertire] [file_di_destinazione]"

Es:

html2txt http://www.google.it google.txt

e viene creato il txt di nome google.txt

Falko

Chicca86 · 11 Ottobre 2008

grazie ragazzi siete dei tesori però così riesco a convertire il testo di un sito txt, ma adesso mi servirebbe un programma che mi permette di scaricare tutti i siti che un motore di ricerca ti seleziona.

Falko · 11 Ottobre 2008

Tutti i siti in che senso? la pagina che li elenca oppure ogni sito che ti appare?

- Se è la prima, file - salva con nome (dal browser);

- Se è la seconda puoi provare usando un programma per la gestione dei downloads, tipo Free Download Manager che ti permette di scaricare tutti i links elencati in una determinata pagina

Falko

Chicca86 · 12 Ottobre 2008

uffa, sei veramente gentilissimo... ho scaricato il programma che mi hai detto, era quello che mi serviva, però quando provo a scaricare le pagine di ricerca di quel sito (come questo link: http://www.blogpulse.com/search?query=Politica and che &start_date=20080415&end_date=20080415) mi dice accesso rifiutato nome utente o password non validi Ma per fare la ricerca non richiede mai nome utente e pw, e neanche per salvare la pagina manualmente, non capisco. avvilita

Falko · 12 Ottobre 2008

E' probabile che si tratti di un link del motore di ricerca che ingloba le credenziali dell'url, di solito questo sistema si usava per evitare che i "bot" di internet "floddassero" (innondassero di dati) i server rendendo le pagine irraggiungibili.

Hai provato a fare la stessa procedura da un altro motore di ricerca tipo Google? E' possibile che sia un problema localizzato 2

Falko

Chicca86 · 12 Ottobre 2008

Su google ancora peggio, quando faccio scaricare il link di un risultato di ricerca e lo converto poi in txt mi esce una cosa come questa

<!doctype html><head><meta http-equiv=content-type content="text/html; charset=ISO-8859-1"><title>google - Google Search</title><style>body{background:#fff;color:#000;margin:3px 8px}#gbar{height:22px;padding-left:2px}.gbh,.gbd{border-top:1px solid #c9d7f1;font-size:1px}.gbh{height:0;position:absolute;top:24px;width:100%}#gbi,#gbs{background:#fff;left:0;position:absolute;top:24px;visibility:hidden;z-index:1000}#gbi{border:1px solid;border-color:#c9d7f1 #36c #36c #a2bae7;z-index:1001}#guser{padding-bottom:7px !important}#gbar,#guser{font-size:13px;padding-top:1px !important}@media all{.gb1,.gb3{height:22px;margin-right:.73em;vertical-align:top}#gbar{float:left}}.gb2{display:block;padding:.2em .5em}a.gb1,a.gb2,a.gb3{color:#00c !important}.gb2,.gb3{text-decoration:none}a.gb2:hover{background:#36c;color:#fff !important}.ts{border-collapse:collapse}.ts td{padding:0}.ti,.bl{display:inline}.ti{display:inline-table}.fl:link,.gl a:link{color:#77c}a:link,.w,#prs a:visited,#prs a:active,.q:active,.q:visited{color:#00c}.mblink:visited,a:visited{color:#551a8b}a:active{color:red}.cur{color:#a90a08;font-weight:bold}.b{font-weight:bold}form{display:inline}.j{width:42em}.s{max-width:42em}.j{font-size:82%}.j font[size="-1"]{font-size:100%}.e .j{font-size:100%}.e .j font[size="-1"]{font-size:82%}#gb{text-align:right;padding:1px 0

è più difficile di quanto pensassi fare questa cosa. Fare copia incolla per 13000 risultati di una ricerca ci metto troppo

Falko · 12 Ottobre 2008

Ti da quel risultato perchè il programma usato non ha evidentemente convertito la pagina (quel codice è Html), rivedi la procedura che stai usando e verifica di fare tutto correttamente...

Ps: non vedo l'utilità di salvare una ricerca così corposa considerando che i contenuti sul web cambiano di continuo e che ti servirebbero svariate settimane per poterli vedere tutti...

Falko

Chicca86 · 12 Ottobre 2008

Il fatto Falko è che io poi userei un programma che analizza automaticamente il testo scritto (TalTAC ad esempio) e con una certa approssimazione potrei capire come cambiano i contenuti delle pagine in un modo estremamente veloce, però se ci metto una eternità a fare questo testo scritto il guadagno si perde, comunque anche se provo a scaricare la pagina con il programma che mi hai suggerito e provo a convertirlo con Html2txt mi da sempre codice. Se invece scarico con salva pagina e uso Html2 mi da proprio il risultato che mi serviva. Comunque provo ancora a provarci, è probabile che stia sbagliando qualcosa con free download

Falko · 12 Ottobre 2008

Interessante il sistema che usi (regex su testi da pagine scaricate...).

Vedo se riesco a farmi venire in mente qualche cosa per Windows (da Linux te la programmerei una cosa simile..)

Falko

Accedi o Registrati

[Help] Programma per scaricare risultati di una ricerca

Chicca86 techNewbie

Davide Amministratore

Chicca86 techNewbie

Falko techBoss

Davide Amministratore

Chicca86 techNewbie

Falko techBoss

Chicca86 techNewbie

Falko techBoss

Chicca86 techNewbie

Falko techBoss

Chicca86 techNewbie

Falko techBoss

Chicca86 techNewbie

Falko techBoss