2008年8月31日 星期日

宅度計的關鍵字準備獨立

事實上在好好讀在做出來時, 就有所謂的獨立關鍵字的機制, 見沒有公開的 http://good.urs.tw/newkey.php , 目前有67 組外加的關鍵字, 來讓好好讀能夠有更貼近現實的呈現, 但宅度計一直沒有...

所以一直被垢病的就是 "2008", 這種數字, 以及 "台灣" 這個過於普遍被認為是地名的關鍵字等等的一些造成失效的關鍵字, 所以宅度計也必須該有這種正面與負面列表了..

正面列表在一開始就有規劃, 只是這個須要有對這分類的關鍵字有概念的人來設定, 例如可以規劃出一個 "日職棒球通" 這種東西, 或者是對像 "舞蹈類" 做更多關鍵字的設定, 畢竟部觀門有自己對關鍵字選擇的一套邏輯..

1. 單日搜尋量至少要 50 次以上, 且必須要有 3 個不同部落格被搜尋到...
2. 但若這個關鍵字出現在較多的部落格, 要求可能可以降到 20~30 次...
3. 必須要能夠跟之前有可辨識差異的能力..
4. 若足夠量到 100 次以上, 可以為了記錄不考慮重覆性...

事實上洋洋灑灑可以寫出 10 點以上, 但基本上還是由 "量" 來決定, 而不是為了辨識力, 這跟宅度計的目標差很遠..

當然原本還想寫 "你的部落格是藍是綠? 是左是右?" 等等, 但最大的問題是我個性的乖張, 還是希望有足夠的實務與理論基礎, 而不是純脆的趣味化而沒有價值...

所以慢慢的接下來真的會有幾個方向:

1. 延伸關鍵字, 包含在既有的分類或新分類
2. 部落格觀察 25 分類的完成
3. 部份關鍵字排除在宅度計的偵測
4. 建立專業的分類

然後事實上已經有 "達人" 的關鍵字投票互動系統的規劃, 甚至是自己設定關鍵字來記錄, 這個都會慢慢完成, 只是這種東西有沒有價值就見人見智了~~~

2008年8月30日 星期六

Feedburner 改版 ( Google 的企圖?)

這次大概是 Google 也想推動自己有關 Feed 的 Namespace, 就像是 Google Tool Bar 一樣, 所以原本一單純的 Feed, 現在就多了三組 NameSpace, 如下表:
xmlns:openSearch="http://a9.com/-/spec/opensearch/1.1/"
xmlns:gd
="http://schemas.google.com/g/2005"
xmlns:feedburner="http://rssnamespace.org/feedburner/ext/1.0"
gd:etag="W/"AkQCQn45eSp7ImA9WxdaGEU.""

一個是 a9 推的 open search, 一個是 google 自己推的 google schemas, 另一個是 feedburner 自己推的 feedburner 的 name space...

比較好笑的是去看 http://schemas.google.com/g/2005 還是錯誤網址說, 事實上指的是 Sitemap 之類的 Namespace, 而 Open Search 的網址也換了, 這個也是輔助搜尋相關的功能, 而 gd:etag 也是 google data 想要推動的 tag 功能之一...

當然 Feedburner 這一個改版讓原本好好讀的 Parse 程式跟著失效, 所以又要改寫了, 所以最近這一陣子大家應該有看到很多 Feed 的標題都是怪怪的, 表示抓錯了, 所以剛剛把這問題修正, 所以在熱度上面的計算都多少有些問題, 但這問題過兩三天就會好了..

事實上我並不贊成在部落格觀察的 Feed 寫 Feedburner 的來源, 畢竟這把原本可以一手抓到資料的方式變成二手, 甚至在時效性會降低, 若沒有流量的考量沒必要為了 +1 個 feed 變成用 feedburner ...:)

只是這次 Feedburner 與所謂許多的 Google 的 Feed Proxy 等等的功能加強, 這代表的 RSS/Atom Feed 的應用在某方面因為 AJAX ( JSON ) 的 API 跟著加強, 能夠玩的東西更多了, 但面臨越來越複雜的 RSS, 已經越來越不 Really Simple 了, 讓我想到 RSS 1.1 與 RSS 2.0 的爭端, 對這有興趣的人可以自己去看~~

2008年8月24日 星期日

好讀指數

在之前, 我偷偷在這邊跟大家講目前 GR>=6 的部落格與最近成長不少的部落格有那些..

目前好讀為 6 的部落格
amarylliss。艾瑪[隨處走走] -
金柏妘
AV No.1 Blog
TVdeo - 免費線上電視機
魔鬼甄與天使嘉 -
阿榮福利味
彎彎~用漫畫寫日誌 -
SANA的網誌 -
AMYKAKU -
電腦玩物
osaki's Blog - 娛樂,網路,影片,Kuso,不可思議...
Christabelle的藝想世界

上面那個表並沒有按照分數排序~~~~
下面這個表是進步到 4 分以上的前 10 名~~~

最近成長不少的部落格原本
現在
海綾月兔兔認養專區4
5
Fun.New.Run.High. 放形浪駭34
水瓶面面書寫幸福 -34
寧靜海的銀色天空45
~Smilejean。紫色微笑~ :: PIXNET BLO34
Xuite日誌:簡睿隨筆 《科技篇�34
★雪倫★---Voulez-vous couchez avec 34
香腸炒魷魚45
BillyPan 的部落格45
花。水‧木34

基本上看起來還要做些調整, 例如就是對於點閱數的權重要放低一些, 大家快去看自己的好讀分數吧...

然後好讀指數是參考幾點算出一個部落格的意義:

1. 點閱數
2. 最近發文頻率
3. 獲獎的狀況
4. 部落格觀察指數
5. 一些部落格觀察沒有參考到社群活躍度
6. 其他

會採取這個數字最重要的原因是部落格觀察也太多盲點, 所以須要有一個更全面的指標來做為部落格選取的參考, ....

只是現在這指數還在做調整, 希望做到真正有參考的價值...

坐監服刑完畢 (又重新被 Google 信任了)

雖然知道, 判斷是否是 Link Farm (連結農場) 的演算法不難寫, 但說要誤判的機會是多大呢? 或者是說能夠操控的空間是多大呢?

上一篇文章事實上是發生在 7 月底到 8 月初的 Google Dance , 就發現這個部落格被丟進觀察名單, 只是平常知道這個觀察名單一坐就要坐兩三個月才對, 甚至是以半年做計算, 所以早就有不管這件事的覺悟, 畢竟這個部落格的 RSS/Atom 訂閱已經有 42 個人了, 且這個還不包含我, 所以說, 這樣寫, 至少有 40 個人會看, 因此即使只是為自己寫, 但看到有觀眾還是不一樣的...

但目前還有些事都還沒做:

1. 公布每個月部觀門的熱門關鍵字, 大家可以去翻舊文就知道
2. 本來這個部落格會每天寫出一組重要的關鍵字觀察, 但好像很久沒寫了

而我的確還是會持續寫下去, 只是可能頻率與心態會多少有所改變了...

當然還是多少也高興一下不到一個月就服刑完畢, 所以自認為自己做的是白手套且肯繼續是對的, 我原本還找人去 funp 幫忙推, 說這種自諷的文章應該可以拿到一顆星才對, 只是不好意思只有 5 個人推, 半顆星都拿不到~~~

的確這個事件直得給 SEOer 一個警惕, 但也可以證明內容夠充實, 很快就會復元了, 嗯, 下次來寫一篇有關 "好讀指數" 的文章吧, 至少要弄個 FAQ 才對,...

2008年8月22日 星期五

這個部落格被 Google 給 Ban 掉了....

這是一件很有趣的事, 在這次 Google Dance 之後, 這個部落格不只是 PageRank 被歸零, 甚至 "連結數" 也被歸零...

這個部落格當時只是我發現我為了研究網路行為, 花了很多時間在 "關鍵字", 尤其是在 "部觀門" 這計劃, 就建立了這個 "來看部觀門", 但在 "宅度計" 成立後, 就變成 "來看關鍵字"...

這個部落格也是我刻意想要推動的 "個人官方部落格", 畢竟這些計劃, 到底是歸屬於 MyZilla, 還是 "部落格觀察", 或是甚麼計劃, 我也不知道, 畢竟這大部份都是個人自己在玩, 也算是一種實驗的 Prototype (實驗原型), 即使是爾後我的工作要用這系統的核心做事, 這也都是獨力事件..

所以這些計劃, 我刻意除了自己唯一掛的 "只是捷運日記" 的連結外, 也掛了這個部落格的連結, 只是本來也是好好的寫, 沒想到一個 "豔照門" 事件把 "部觀門" 弄得大亂, 這個部落格也停下腳步, 所以從一月18號到 4月7號的 80 天, 只寫一篇文章, 但連結數卻持續著因為系統增加而增加, 就被 Google 認為是 Link Farm, 被打入黑名單...

事實上畢竟我寫作還是以內容為主, 不曾考慮過 SEO, 就像我都說, 我做的網站, 目前沒有 meta-data, 更沒有 sitemap, 甚至連 robots.txt 都沒寫, 就 SEO 教科書的觀點都是不及格, 但我相信只要有內容, 做得好自然在 "資訊獲取" 的概念是對的, 自然 SEO 就會起來...

所以這個站即使是被 Google 黑掉了, 的確是給大家一個警告, 若是沒有認真的產生內容, 即使你有系統幫你增加連結, 也是不被承認的, 我那一陣子的確是低潮期, 不要說是沒做新系統, 連新內容也沒有, 因此這對我也是個不錯的警惕~~~~

至少在某方面, 或許我該努力的不要讓這個部落格被 Google 認為是 Linking Farm, 所以在 copy and paste 一些表格時, 應該把連結拿掉, 不然真的被誤會就慘了...

2008年8月19日 星期二

第二次的部落格關鍵字關聯分析

上一次大約是算了 1 天多算完, 這次大約花了 3 天多, 主要是部落格數字變多了, 以及演算法稍微複雜了一些, ...

大家可以去宅度計看自己的 "配對榜", 我相信這次的準確度比之前好多了, 這也是我敢拿出來的原因, 雖然應該還是有改善的空間, 無論是演算法還是權重~~~

名次 名稱 關係度 絕對宅度
1MacBlog218.1468.49%
2放屁(Fun&Peace)17.9519.12%
3工程師級的顧問 / 【食夢黑貘】15.1967.30%
4Blog E15.0624.93%
5電影‧人生‧夢 -14.9323.52%
6豬言豬語14.7637.44%
7搖櫓水向天一方14.720.00%
8中時部落格-李偉文部落格14.6815.07%
9Duncan的網路日誌 -14.310.00%
10喲哪桑的軟體習作簿13.8632.51%
11宋東彬的部落格~蟲出江湖~爬向TVBS~我回來了!13.730.00%
12[ Blog Worker ] 工頭堅部落‧ 部落格臥客13.5247.47%
13CCB 2.0 (beta)13.5164.32%
14不取於相,如如不動 - Yam 樂多日誌12.8016.53%
15 終極邊疆BLOG12.7957.08%
16玉里書12.6629.94%
17抬起尊臀去敲門12.4120.99%
18Hi! I’m clsung12.260.00%
19紅色長角三倍速12.2634.16%
20生活在臺灣12.2190.98%
21Richy's 減肥部落格11.9773.53%
22 遊戲噗 11.9318.98%
23宣和EVA的交換日記 - Yam 樂多日誌11.5726.54%
24美艷派可愛風惡搞系人間 - Yahoo!奇摩部落格11.4950.47%
25Think of Joe - Yam 樂多日誌11.3927.69%
26張小P 過生活 - Yam 樂多日誌11.200.00%
27晚安! 203室10.8821.11%
28Soy Milk and Fried Bread Stick 豆漿和油條10.840.00%
29不自量力 の Weithenn10.4841.37%
30媒觀系10.4552.85%

上表是這個部落格的前 30 名的關鍵字關聯的排行榜, 整體看起來都還算可以接受, 但或許如在 "今天, 這個部落格的關鍵字關聯分析" 所說的, 那樣, 還要再更新完所有資料後, 時間性才會出來...

目前你的部落格是跟誰有關聯呢? 大家去看看吧...

2008年8月18日 星期一

從部落格熱度來看奧運, 及部落格圈的關鍵字變化

這幾天一直觀察奧運的熱度, 我些列出來目前的狀況好了...

日期奧運熱度第二名話題
熱度
08/18
41
華原朋美
23
08/1757
華原朋美23
08/1695
陳水扁
22
08/15128
民進黨
20
08/14156
Microsoft
17
08/13135
福建
21
08/1289
google
17
08/1181
星光大道
24
08/10123
馬英九
27
08/09148
情人節
50
08/0890
情人節
86
08/0766
情人節
50
08/0666
減肥
18
08/0558
減肥
44
08/04
42
減肥
42

從上表來看, 看得出來有兩波高鋒, 第一波就是開幕式到舉重奪得到兩個銅牌, 但隨著射箭隊失利後, 就開始冷卻了, 一直等到棒球開打到輸給中國隊, ...

在 8/4 之前第一名的不是奧運, 這個可以看前面的文章就知道, 那時是星光大道與超級偶像的天下...

在其中有幾個關鍵字曾經是第二高, 從這邊也可以看得出幾件有趣的事..

1. 減肥這話題總是部落格的長青樹, 除非有較有趣的話題, 不然這個很容易保持一定的熱度

2. 情人節這段期間必然是部落格熱門話題

3. 在 8/10 時, 還迷漫著倒馬的馬英九話題, 但在 8/15 話峰一轉變成陳水扁變落水狗

4. 因為前一陣子有一群部落客被邀請到福建參訪, 所以在 8/13 變成熱門話題, 雖然也是只有幾個人就夠了..

5. google 與 microsoft 的一舉一動都很受到部落格圈的重視

6. 最近大概是華原朋美的新聞不斷, 加上剛好她生日, 所以~~~

基本上我這個人最喜歡量化, 但從這量化的確可以看到一些質化有趣的事, 尤其是時事的脈動在主流媒體與非主流媒體之間的差距, 是相當有趣的...

2008年8月14日 星期四

有關好好讀的來源

目前好好讀取自於 1000 個從不同來源取樣的部落格, 這包含部落格觀察名次高的部落格, 得獎的部落格之類的, 當然以後會越來越多, 但這些來源還是有些部落格比較難列入好好讀, 所以排除在外, 主要是兩個原因:

1. 大部份都是轉貼, 網摘的部落格
2. 太多涉及成人的話題的內容

以下是理論上應該有資格列進好好讀, 但最後沒有包含在好好讀的 BlogID, 向下面這些部落格說聲抱歉, ....

76373
212
19007
30407
43410
30636
15466
22605
29907
30404
28600
36385
27071
35284
31724
21767
166

目前的計算方式是從抓取列入清單的 1000 個部落格, 然後取三天內每個部落格最新的文章標題與內容, 然後用部觀門的關鍵字, 以及最近使用者搜尋的關鍵字, 以及特別加入的關鍵字來計算, 最後算出熱門度, 在使用者讀取時算出並進入暫存檔..

目前是每兩時算一次, 所以快取 (Cache) 也是兩小時計算一次, 所以看到的當然是四小時內最新資料, 但因為每一個部落格的時區都不同, 所以有些部落格的時間怪怪的, 但我認為在這種誤差不會超過天, 所以是可以暫時不用去管時區的問題....

最後, 這系統的最近會出 Widget, 但也是希望真的把算式調到一定穩定再說吧...

2008年8月11日 星期一

新增模特兒分類

距離上次增加新分類已經是兩個多月的事了, 這次特地邀請到對模特兒與 show girl 都很專業的 wisely 來幫忙審視這些關鍵字的這個類別...

畢竟演員藝人不代表一定是模特兒或模特兒出身的, 自然也會排除 AV 女優出身的, 當然我是不太了解 wisely 是用甚麼標準啦, 但我是相信他的專業..

大家有空也可以去他的部落格看看...Wisely's 拍拍照.寫寫字, 但我猜他可能無法在這分類獨占螯頭, 畢竟他的部落格有部份美食, 部份攝影以及模特兒與 showgirl, 不像有些部落格, 如 beautypaper 等都是以這分類為主的, 但不一樣的是 Wisely 的照片都是他自己拍的, 跟那些部落格純脆收集的方向是不一樣的, 自然以原創為主的部落格在這方面會較吃虧一點...

說真的, 在好好讀與宅度計等最大的問題就是要解決何謂原創或者是 "轉貼" 甚至是 "侵權" 等等, 這些可能都還是要靠人工吧..

最近突然多了不少 feedburner 的訂閱, 所以再加註以前說過的話, 這個分類的排行必須要等到一星期到兩星期後才會穩定, 這段時間只能做參考...

2008年8月9日 星期六

部落格好好讀前五名的變化

這些資料, 目前是放在 "部落格頭版備存" 上面, 大家想不開可以訂閱, ....

若是以一天來看, 所謂的前 10 名的話題從早到晚變化不大, 但若是以幾天為單位來看, 事實上還是有變化的, 我來整理這八天的變化來看看..

8/1: 星光3, 心理測驗, 減肥, 颱風, 瓦力
8/2: 星光3, 黃靖倫, 星光大道, 籃球火, 徐佳瑩
8/3: 超級偶像, 減肥, 煙火, 超級偶像2, Code Blue
8/4: 奧運, 減肥, 命中注定我愛你, 煙火, 籃球火
8/5: 奧運, 減肥, 命中注定我愛你, 塔羅, 夜市
8/6: 奧運, 北京, 減肥, 情人節, 加拿大
8/7: 奧運, 情人節, 七夕, 北京, 棒球
8/8: 奧運, 情人節, 七夕, 北京, 父親節

首先要說明一下, 像為甚麼星光3 與星光大道跟超級偶像與超級偶像2 會同時存在呢? 因為在關鍵字的選取關係, 星光大道與超級偶像是屬於電視電影類別, 而星光3與超級偶像2在所謂的集數算是有時效性的話題所以不是在電視電影分類, 所以才會這樣子的結果...

前三天可以說是星光與超偶的日子, 此時颱風已經逐漸退燒, 而奧運在變成主要主題時, 兩個節日的話題性也增加, 就是情人節與父親節, 果然是相當應景的..

但這個以較意義並不大, 所以我會再加寫變化量, 不是單純的以總量來看, 這樣每日才會有變化, 不是五天才會變化一次~~

2008年8月7日 星期四

宅度計的計算改變

有些人發現宅度在最近一次的計算, 有 8 成的人分數大為下降, 但也有兩成的人宅度上升到新高, 這個改變最主要是針對發表文章的時間做權重的計算...

也就是說, 若一陣子都沒有新文章, 隨著時間的推移, 原本文章的權重會逐漸降低, 雖然不至於會變成零, 但若真的超過很久沒寫的話, 這個宅度自然就會變很小到看不見, 若不到 0.5 的話, 自然看起來就是零了 (因為會進位)...

相較的, 在部落格達人(權威部落格)的部份, 也會因為分數的不同, 讓每次計算時多了些變化, 也就是說, 原本只有當選或沒有當選, 此時還多了個 "當選次數", 畢竟要一直維持這個關鍵字的熱度不是那麼簡單, 像黑貘來說而言, 其達人代表為:

名次 名稱 第一次 最近一次 當選次數
1Web 2.02008-08-042008-08-041
2web2008-08-042008-08-041
3部落格2008-08-042008-08-041
4部落格觀察2008-06-202008-08-044
5SEO2008-06-092008-06-102
6宅度計2008-06-042008-08-044
7排行榜2008-06-042008-06-052
8食夢黑貘2008-06-032008-08-044

這代表說, 像宅度計, 食夢黑貘, 部落格觀察這三個字是最為權威的 (這是廢話), 而 SEO, 排行榜也有 2 次, 而最近 web 2.0 等三個是剛入選, 當然以後會以次數做排序, 因為當時並沒有當選次數...

這資訊可以在宅度計中每個部落格的 "達人" 選單看到, 也列出最近抓的一次的關鍵字數目, 只是這數目已經有經過時間的 Normalization 了, 不是真正的純數字...

而未甚麼會有少數人增加呢? 因為雖然大部份的次數都會因為時間而有權重而降低, 但反倒是在一定時間內文章內容會因為夠新而會有微幅上升, 但這個並不多是真的...

而想知道自己在那些關鍵字或領域是達人或權威嗎? 快去宅度計查查看吧...

2008年8月5日 星期二

部落格的話題?

有時我都覺得看新聞與看部觀門是相當有趣的, 此時至少有四個族群對一些事情有些不同的看法:

1. 大眾媒體新聞從業人員
2. 部落格寫手
3. 部落格讀者
4. 所有讀者

當然在去年初時, 開始研究搜尋關鍵字的脈動的時候, 我已經發現主流媒體對一些新聞處理的重視度跟讀者想要知道的東西有很大的落差, ....

在做出宅度計後, 更可以看到部落格讀者與寫手的關係, 而這四個族群不只面對一個話題事件處理的態度與比重不一樣, 甚至時間上有些交互關係, 例如大部份的政論都是由上而下, 而一些消費話題都是由下而上, 都會有一個有趣的時間軸~~~

甚至是我們可以劃分出一個有趣的事:

1. 重度部落客: 會積極參與部落圈活動, 或者是時常參與網摘的系統的人, 以及一群很有目的想要從網路賺錢的人.

2. 一般部落客: 只是純脆寫些自己的想法, 很少使用社群網摘書籤的系統, 更不會參與部落圈的活動的人. (通常也是一般部落格讀者)

當我把 "部落格好好讀" 給一些朋友看之後, 他認為這個正好可以表現出一般部落客對時事話題的比重, 而非經過活躍的重度部落客炒作的結果, 雖然這並不完全是我追求的目標.

就像是 BOF 及 Punch Party 可以說是部落圈重要的大事, 去網摘看的話, 可能是一大堆相關的文章, 但從 "部落格好好讀" 來看, 又承現不同的風貌.....

只是像 "全球華文不及格大獎", "台灣部落格大獎" 或 "[BOF]", "Punch Party" 等, 基本上是無法被列到部觀門的觀察列表, 因為太少人去搜尋了, 但在設計好好讀的時候, 本來就考慮這些部落格圈的特定議題或關鍵字的計算, 以及突發事件, 而最後算出現在部落格最夯的話題為:

名次 話題 熱度 分類
1奧運46時事話題
2減肥42
3命中注定我愛你36電視電影
4煙火22
5籃球火20電視電影
6超級偶像218時事話題
7超級偶像18電視電影
8非凡美食大探索16電視電影
9星座運勢14星座命理
10霹靂14電視電影
11夜市14美食店家
12Code Blue12電視電影
13環島12旅遊地名
14星光大道10電視電影
15北京10旅遊地名
16心理測驗10
17中華隊8運動類
18全球華文不及格大獎8時事話題
19大稻埕8旅遊地名
20高鐵8
21MLB8運動類
22倒馬8時事話題
23減碳6時事話題
24台灣部落格大獎6時事話題
25演唱會6音樂類
26京都6旅遊地名
27賴銘偉6人名團體
28煙火節6時事話題
29達人6
30康子與健兒6電視電影

而 BOF 在這邊是 4 分, 沒辦法進去排行榜, 雖然最高也曾到 6 分過, 只是那時第 30 名是 8 分, ...

但從這邊就可以看得出來, 新聞, 網摘 (funp, myshare, hemidemi), 部觀門, 跟這個好好讀的差異, 剛好表現出一般部落客(通常是讀者)與其他三種族群取向的不同, 只是這系統還未臻完善, 離真正的自動化以及全面化還有段距離, 嗯, 再看看吧....

系統出問題~~~~

應該是說昨天吧, 因為某人下載資料的關係, 造成連線對外都有問題, 所以重整所有的系統, 但此時造成一些問題:

1. 宅度計換 IP, 所以有些人在這一兩天連不上....
2. 貼紙搜集也在 8/4 14:30 到 8/5 2:30 這 12 小時沒有記錄到
3. 部觀門在這段時間也多有錯誤

除了第 1 點外, 第 2, 3 點目前已經恢復正常了~~~~