💾 Archived View for iter.tw › ~gugod › 2021 › 11 › searchmysite-seacrh-engine › index.gmi captured on 2022-03-01 at 15:11:25. Gemini links have been rewritten to link to archived content
⬅️ Previous capture (2021-12-03)
-=-=-=-=-=-=-
https://searchmysite.net/ [1]
看來是個站長[2]一人自做的專案,只處理由使用者送過來的網站,不主動往外爬的樣子。
依其說明 ( https://searchmysite.net/pages/about/ [3] )
Indexes only user-submitted sites with a moderation layer on top, for a community-based approach to content curation, rather than indexing the entire internet with all of its spam, "search engine optimisation" and "click-bait" content.
站長在收到新網站時會進行人工審核,以避免有太多亂七八糟的東西混進來。
確實,如果不主動往外爬的話,也就不會爬到任何內容農場或是 SEO 做得很好但內容全是促銷廣告而無任何品質可言的網站了。但也有個大前提:使用者送交給這個搜尋引擎來處理的網站,基本上都必須夠優質才行。
再說,有一些 BSP 的 SEO 做得仍然沒有比內容農場網站來得更好。變成,世界上有很多人努力地在寫優質文章,但其網站卻永遠無法成為搜尋結果中的榜首。
搜尋引擎畢竟仍是一個垃圾進垃圾出的系統。而垃圾問題,必須要從源頭開始處理才會有長遠的效果。
把 [自己的 blog] 送過去後,約在兩天內進了其索引。順便就稍微試了一下中文搜尋[4]。漢字處理似乎是 unigram 而非 bigram。
從搜尋的結果排行似猜測,給分方式單純只是關鍵字匹配越多就越高分而已。整體效果似乎還算可以。但顯然是因為其索引很小,所以不管搜什麼字串,出現的搜尋結果都是差強人意的。
稍微翻了一下其程式碼 [5],搜尋引擎部分是使用 apache solr,似乎值得自架一個來玩看看。
或許,只要自架這種搜尋引擎的人夠多,各自讓其使用者群為搜尋引擎系統的過濾器,這種搜尋引擎就可以成為讓優質內容真正浮出來的一種催化劑了吧。
3: https://searchmysite.net/pages/about/
4: https://searchmysite.net/search/?q=%E6%90%9C%E5%B0%8B%E5%BC%95%E6%93%8E