Japp, ett trevlig verktyg :)
Inget stort problem, men skulle det gå att lösa så att IDN-domäner skulle publiceras korrekt?
Utskriftsvy
Japp, ett trevlig verktyg :)
Inget stort problem, men skulle det gå att lösa så att IDN-domäner skulle publiceras korrekt?
Skall kolla på detta.Citat:
Ursprungligen postat av whyld
Löst!Citat:
Ursprungligen postat av whyld
Jättebra, men jag tror iiinte det kommer bli poppis när folk börjar köra det här mot andras siter utan tillåtelse.
Jag tänker varken säga bu eller bä om det, men ett _tips_ för att förhindra missbruk / arga mail är nog att göra som google, man måste verifiera att man är ägaren av webbplatsen genom att skapa en tom fil med unikt filnamn.
Mina $0.02
Jag avvaktar tills det att jag får klagomål, skulle gissa att det första som händer är att webbhotellet klagar.Citat:
Ursprungligen postat av Hjalmar
Du kanske kan lägga in nån maxgräns på antalet sidor verktyget laddar ner om man inte verifierat.. annars tror jag nästan att jag lägger in ett preventivt klagomål direkt ;)
Edit: jag testade köra det på en av mina sidor, jag avbröt efter ett tag men det berodde mest på att firefox sa att ditt script gjorde att min browser blev slö av det. Det kan finnas nån bugg / onödig loop när du har många sidor i din datastruktur för obesökta sidor.
Den loopar igenom alla sidor på domänen varje gång den hittar en ny länk inom domänen. Det verkar inte som om actionscript 2.0 har någon funktion för att söka igenom en array annat än köra en for-loop. Det tar dock inte många millisekunder. Varje gång den bearbetar data står det "Processing data..." i status texten. Annars är det laddandet som tar tid och eftersom det tar tid så väntar flash med kod och webbläsare får för sig att det är koden som tar lång tid när det snarare är servern. (en teori)Citat:
Ursprungligen postat av Hjalmar
Det sitter ju en spärr på 1000 sidor nu. Den är dock ganska överdimensionerad. Hur många sidor skulle spärren ligga på för att ditt klagomål skulle försvinna?
Är det främst för att du inte vill att andra skall få informationen eller för att det belastar din server? Har funderat på att fixa cache på varje domän som söks igenom och sedan lägga en spärr så att det bara går att ta en domän om dagen, veckan eller liknande... Lite av meningen med verktyget från början va att kunna kika på vilka länkar andra sidor har också.
Tja .. jag har en hel del sidor som blir ledsna när nån söker igenom många av de databas-intensiva sidorna på en gång.. de är helt enkelt inte dimensionerade för att automatiska verktyg utan delay mellan varje request skall göra så.
Google har ju flera sekunder mellan sina requests även om de indexerar "hårt". Ditt verktyg verkar inte ha nån sån spärr.
Det är inget "klagomål" såsett. Får jag problem så spärrar jag ditt ip bara, men det vinner ju egentligen ingen på.
Du kan ju tyvärr inte lösa problemet eftersom du inte gärna kan låta användaren sitta och vänta 2-3 sek mellan varje sidladdning, isof får du skicka en rapport nästa vecka istället. Det vore kanske trots allt den bästa lösningen.... tyvärr.
Snyggt!Citat:
Ursprungligen postat av wintzell
Är det intressant med ett sådant verktyg?Citat:
Ursprungligen postat av Hjalmar
Jag vet inte riktigt hur man skall forma det... Som du säger så måste man skydda det från missbruk på något vis, frågan är bara hur utan att kompensera med sämre funktion...
Hjalmars förslag om att göra på samma sätt som Google är ju tämligen rak på sak och bör ju med ett komplement fungera bra:
1) Användaren skapar ett användarnamn med lösenord.
2) Användaren visar att han är ansvarig för webbplatsen genom att skapa en fil med något slumpmässigt namn.
3) Tjänsten tittar att filen finns och ger sedan användaren rättighet att spindla sajten.
Varför inte starta ett eget Wintzells Verktyg för webbansvariga (fast med ett annat namn förstås)? Då är man medlem frivilligt och dina verktyg får arbeta kontinuerligt i en lagom takt.Citat:
Ursprungligen postat av wintzell
Det skulle vara en klockren tjänst. Om man såg brutna länkar och om länkarna skickade vidare med 301or till andra sidor.Citat:
Ursprungligen postat av hans99
Naturligtvis skulle man kunna hantera multipla webbsajter i ett konto bara man verifierade dessa.
Detta låter kul!
Så inloggning med verifiering av webbplatser skulle vara intressant?
Funktioner som ni skulle vilja ha med där är?:
* Utlänkar då från domänen (med och utan nofollow, som nu)
* Kontroll av brutna länkar, (ut eller också på webbplatsen?)
* Vad mer?
Vilket är mest intressant - att spindla siten då användaren väljer det eller på regelbunden basis en gång i veckan eller motsvarande.
Sådana här verktyg kan faktiskt vara väldigt bra att köra. Microsoft Live! har ju något liknande men som missar en del utlänkar.
När jag körde den (Live!) första gången upptäckte jag att en länk till en webbutik av misstag var sökmotorvänlig där den absolut inte skulle vara det. Nyheten handlade om att Läkemedelsverket varnade för en produkt som butiken sålde som var farlig.
Så den här tjänsten blir ju klockren att ha för att verifiera att man inte av misstag har länkat något när man gjort research.
Att kunna sätta ett schema för spindling hade varit intressant. Skulle också vara intressant att få reda på IP för tjänsten så man kan ta bort dessa ur statistik.Citat:
Ursprungligen postat av wintzell
Både interna och externa brutna länkar är instressant att få reda på.
Kunna spindla mer än 1000 sidor.
Ta hänsyn till robot.txt och/eller ställa in egna kataloger på sajten som den inte skall gå igenom.
Håller med! Vår sida är på mer än 2000 sidor.Citat:
Ursprungligen postat av MattiasN
Lite jobb har kommit emellan, får vänta några dagar innan jag kan börja fixa...
Det verkar som att jag får försöka flytta hela scriptet till php. Läste dock Nikke Lindqvist's tråd där det snackas om Perl som är att föredra för en spindel. Mina Perlkunskaper är emellertid obefintliga, vilket iofs går att ändra på...
Mitt webbhotell är tämligen begränsat (one) så jag måste hitta lösningar på schemaläggning samt för exekveringstid på php:n (set_time_limit(); går ej att ändra).
Förslag, funderingar, åsikter, skällsord o.s.v. är välkommet!
Om du planerar att spindla det i bakgrunden, på servern, är nog inte php det mest lämpade. Satsa på något "riktigt" sråk, C++, C# el. liknande som lämpar sig bättre och som går att tråda på bra sätt. Fast då får du nog köra det på en egen burk och inte hos one :)
Oj, det blev ett stort projekt det här, Wintzell! Men bli inte stressad av allas förväntningar nu... Ska du jobba på det så gör det för att du själv vill/hinner/orkar.