Cafte,mam stiahnut vacsie mnozstvo html stranok. Provider o tom vie a moju ip-cku pridal do zamestnaneckeho zoznamu. Problem je, ze bez prihlasenia su clanky kratene.Na stranke sa prihlasuje cez nejaku javovsku vec, ktoru som este nezacal luskat a radsej to skusam inak. Ako prve som si aj bez prihlasenia urobil zoznam linkov.1) seleniumPotom som cez Selenium spustil prehliadac, prihlasil sa normalne rucne v prehliadaci (meno, heslo, akceptacia cookies,...) a dalej som nechal Selenium nech sam stahuje. Problem je, ze Selenium sa mi zda nestabilny, a napr. po 2 000 strankach padne, a ani neviem preco. Alebo po rucnom prihlaseni otvori prvu stranku zo zoznamu a padne. A tiez sa mi zda, ze casto menia syntax. Co fungovalo pred casom, mi niekedy vypise, ze funcia nie je podporovana... Ako keby to stale bolo vo vyvoji.2) automaticke mys/klavesnica klikacie programyDalej som rozmyslal o roznych… "automatickych mysou/klavesnicou klikacich" programoch. Zoznam linkov by som mal v exceli. Rucne by som sa prihlasil do prehliadaca (toto by sa dalo aj automaticky klikacim programom). Klikol by som na prvu bunku v exceli, skopiroval link ctrl-c, dal do prehliadaca ctrl-v. Ctrl-s ulozil, isiel do excelu, vymazal prvu bunku, zoznam by sa posunul nahor,... znovu oznacil prvu bunku...3) automatika pri padnutiRozmyslal som, ze by som nechal bezat iny program, ktory by pozeral, ako pribudaju nove stranky. Keby to padlo, a teda by nepribudali, potom by napr. program znovu spustil cely proces.4) robim to paralelne na viacerych pocitacoch, a kazdy ma svoj interval podla zoznamu linkov.Mate pre mna nejake rady? Iny postup, alebo ine...Ď. Ukázat celý příspěvek
Já bych se asi přihlásil v prohlížeči a pak bych si ukradl přihlášenou session cookie.Následně přes CURL podvrhnout tu přihlášenou session cookie a zkusil stáhnout stránku. Pokud to bude ok, tak ten curl command zkopírovat a zadat tam další adresu.
To bude za predpokladu ze to nejakou session vytváří a autentifikace je v ni ulozena a posila se get nebo post promennou. Muze to byt resene treba pres SSO kde se vklada username do hlavicek pozadavku a prihlaseni se kontroluje dle nich. Pak bude muset poslat spravnou hlavicku
Potvrďte prosím přezdívku, kterou jsme náhodně vygenerovali, nebo si zvolte jinou. Zajistí, že váš profil bude unikátní.
Tato přezdívka je už obsazená, zvolte prosím jinou.