[Detta inlägg har raderats enligt krav från Tina. Läs mer.]
[Detta inlägg har raderats enligt krav från Tina. Läs mer.]
Jag testade att söka lite men tyvärr så fick jag detta:
Engelska förklaring, snälla du.. Ta och översätt liteSorry,We cannot find any search results for "skog"
Sorry,We cannot find any search results for "häst"
Sorry,We cannot find any search results for "fotboll"
Sorry,We cannot find any search results for "cykel"
Sorry,We cannot find any search results for "kung"
[Detta inlägg har raderats enligt krav från Tina. Läs mer.]
Ok. Vad är meningen med tjänsten?
[Detta inlägg har raderats enligt krav från Tina. Läs mer.]
Hehe.
Kul att du kan ha detta att skapa och syssla med.
Ett tips är att sätta sökmotorn på en egen domän om du ska jobba med den seriöst ...
Lycka till.
Bor nu i Marbella, Spanien
Kolla in mitt SEO verktyg Domainstats
[Detta inlägg har raderats enligt krav från Tina. Läs mer.]
Pointing, har du inget förslag på gratisscript? Jag köpte en engelsk datatidning där det fanns ngt script för att skapa en väldigt enkel sökmotor, men när jag sedan flyttade tappade jag bort CD'n. Väldigt irriterande, för jag var seriös med att skapa en simpel sökmotor :/
Kontakta mig gärna om du vill samarbete eller söker en delägare. Jag har gott om bra namn så det behöver du inte tänka på Annars vore det kul att få tips om några script, både gratis och som kostar pengar.
Tack på förhand,
Maccke
Driver www.nyacasino.nu
http://lucene.apache.org/ kanske kan vara något.
Tack för tipset Hjalmar. Försöker plöja igenom all deras text nu och det var ju inte lite heller. Gillar dock inte att denna sökmotor ej kan indexera själv, av t ex länkar på en hemsida. Har någon förslag på sökord man kan använda för att få fram script/verktyg för att bygga en sökmotor???
Driver www.nyacasino.nu
[Detta inlägg har raderats enligt krav från Tina. Läs mer.]
En seriös sökmotor har alltid flera moduler, det går inte ens att indexera .se med en mjukvara som är både indexerare, spindel och index i samma programmodul. Allting mindre än det skulle jag inte kalla sökmotor utan manuell katalog.
Det är relativt enkelt att skriva ett script som surfar nätet och hämtar <a>-länkar för att sedan spara dem på disk, de filerna läser man sedan in med tex lucenes indexerare.
Att koda en sökmotor i asp är väl .. ja, doable, men herregud, varför...
Edit:
Se gärna http://www-db.stanford.edu/pub/papers/google.pdf, sidan sju 4.1 Google Architecture Overview.
Anledningen till att det har gått så bra för google är i MÅNGA fall att de lyckades indexera det som de andra sökmotorerna på den tiden kallade det "dolda" internet, helt enkelt på grund av deras lysande system-arkitektur. Pagerank etc är en mycket liten del i deras framgång.
Varje del i Googles system är separat och klustrad, vilket gör att varje del kan utökas, krasha, gå offline utan att hela systemet för den delen slutar fungera (ger driftsäkerhet, redundans och kapacitet).
De har separata delar (processer, kan köras på samma maskin till en början för att sedan expanderas ut på många maskiner/kluster):
- URL Server (håller reda på vilka urls som skall indexeras).
- Crawler (maskiner som hämtar hem sidorna url servern innehåller).
- Repository (här lagras all rådata).
- Store server (håller reda på vart de olika sidorna ligger)
- Anchor (håller reda på länkar, träd, hjälpdata vid pagerank, lsi etc)
- Url resolver (att slå upp dns är kostsamt tidsmässigt, och görs med fördel i en separat process. Man vill även kunna cacha själv).
- Barrels (här är själva hjärtat i google, här lagras all data, rådatan, den kompilerade parsade htmlkoden som strukturerade index, det blir ofta 2x så mycket data som orginaldatan vilket gör att tillgången till mycket plats är av vitalt intresse).
- Lexicon (för att kunna göra tex klustring, vilka ord hänger ihop).
- Pagerank (doh)
- Doc index (håller reda på vart vilka dokument ligger i Barrelsen)
- Sorter (ser till att Barrels-datat är sorterat i rätt ordning, uppdaterar i realtid så att skrivningar slipper bry sig så mycket).
- Searcher. (en frontend mot användare som kommunicerar mot sökmotorn).
Alltså, att koda alla dessa delar eller ens bara några av dem som en process är mycket korkat då man låser sig själv till en enprocesslösning. Det finns ingen sökmotor i världen som kan köras med en process.
Senast redigerat av Hjalmar den 2006-07-18 klockan 08:40.
Hashtabell, bredden/djupet/intelligent/binär-sökning, träd, trädtraversering, tidskomplexitet, datastruktur och algoritm. Det kräver dock en heldel mattekunskaper för att utveckla en egen snabb och skalbar sökmotor. Fast man behöver inte satsa på att klå google..Ursprungligen postat av Maccke
Det går rätt fort att uppnå datamängder som gör att även en kraftfull server börjar kräkas bara på sökningarna, det går helt enkelt inte att tex indexera 10 miljoner dokument och sedan låta någon söka bland dem och tro att det skall gå på 0.003 sek. Det kräver att man separerar indexen mellan flera maskiner och kan hantera parallella sökningar.
Mot lite $$$ så kan jag dela med mig utav parserkoden till siterunner.info som vi använder för att ladda hem, strippa och få ut "innehållet" ur webbsidor till. Den tar en url och spottar ur sig de unika ord som finns i dokumentet, skulle tex kunna användas för att skapa en sökmotor som använder sig av inverterat ord-index.
Mot mycket $$$ så kan jag tänka mig att även hacka ihop ett proof-of-concept script för att spindla, queua länkar och iterera över dem i php (som siterunner.info är kodat i). Men man är fortfarande mycket långt från att kunna användas kommersiellt.. men om nån nu vill ha en starting point..
Med Larbin så har jag lyckats att crawla cirka 10 miljoner webbsidor om dagen. Kod finns på http://larbin.sourceforge.net/index-eng.html
Sen är det bara att sätta in i databasen och indexera och göra det sökbart. Lätt som en plätt
[Detta inlägg har raderats enligt krav från Tina. Läs mer.]
Det är för närvarande 1 användare som tittar på det här ämnet. (0 medlemmar och 1 gäster)