?
?
《Replication的犄角旮旯》系列導(dǎo)讀
Replication的犄角旮旯(一)--變更訂閱端表名的應(yīng)用場景
Replication的犄角旮旯(二)--尋找訂閱端丟失的記錄
Replication的犄角旮旯(三)--聊聊@bitmap
Replication的犄角旮旯(四)--關(guān)于事務(wù)復(fù)制的監(jiān)控
Replication的犄角旮旯(五)--關(guān)于復(fù)制identity列
Replication的犄角旮旯(六)-- 一個(gè)DDL引發(fā)的血案(上)(如何近似估算DDL操作進(jìn)度)
Replication的犄角旮旯(七)-- 一個(gè)DDL引發(fā)的血案(下)(聊聊logreader的延遲)
Replication的犄角旮旯(八)-- 訂閱與發(fā)布異構(gòu)的問題
Replication的犄角旮旯(九)-- sp_setsubscriptionxactseqno,賦予訂閱活力的工具
---------------------------------------華麗麗的分割線--------------------------------------------
?
接觸Replication時(shí)間長了,遇到“應(yīng)用復(fù)制的命令時(shí)在訂閱服務(wù)器上找不到該行。”這樣錯(cuò)誤的幾率大大增加,而如何定位并手動填補(bǔ)數(shù)據(jù)成了DBA的必修課;本文將介紹一種暴力方法來追蹤已丟失的熱點(diǎn)數(shù)據(jù),尤其是對于同表多條記錄丟失的問題,提高DBA的工作效率;
本文設(shè)計(jì)思路由陳璟童鞋提供,本人只是加以整理,如有侵權(quán),烤鴨伺候……
本方法雖多次經(jīng)受驗(yàn)證無誤,但多次被MS supporter們建議不要嘗試使用此方法,還望各位DBA三思!
一般來說,定位“訂閱端丟失的記錄”分成以下幾步:
1、通過xact_seqno、command_id定位到具體命令
2、解析commands,確定命令類型(insert、update、delete)、對象名稱、主鍵
3、根據(jù)上述獲取的條件補(bǔ)數(shù)(insert或DTS),這是我們的關(guān)鍵,也是我們需要簡化的步驟
關(guān)于定位失敗的命令,可以參考微軟官方博客
http://blogs.msdn.com/b/apgcdsd/archive/2012/01/10/10254809.aspx
?
沒錯(cuò),我也是這樣操作,但如果你發(fā)現(xiàn),剛剛補(bǔ)過一條記錄后,msrepl_errors又出現(xiàn)新的記錄,咋辦?再1、2、3的執(zhí)行一遍?關(guān)鍵的問題是我們也不知道到底丟失了多少命令。如果這是發(fā)生在夜里,幾分鐘報(bào)一次警,持續(xù)1、2個(gè)小時(shí),相信所有的DBA們都會瘋掉……so,自己動手豐衣足食吧;
?
先來分析一下可能造成“找不到行”的復(fù)制命令的類型;
1、insert
這類操作對DBA絕對是個(gè)blackhole;試想一下,如果一個(gè)insert操作丟失了,如果這個(gè)丟失的記錄后續(xù)沒有通過復(fù)制進(jìn)行過update、delete,你是絕對發(fā)現(xiàn)不了的;沒辦法,這樣的工作只能交給驗(yàn)證訂閱或者定期進(jìn)行tablediff這類第三方工具搞定了,不過我相信大部分DBA都是在業(yè)務(wù)方發(fā)現(xiàn)數(shù)據(jù)不一致以后才后知后覺的……
2、update
update是三個(gè)DML操作里面比較復(fù)雜的,一個(gè)update命令傳到訂閱端但發(fā)現(xiàn)沒有這條記錄的時(shí)候就會報(bào)錯(cuò),由于在發(fā)現(xiàn)命令丟失時(shí)發(fā)布端已經(jīng)完成更新,所以直接手動從發(fā)布庫里導(dǎo)入這條記錄到訂閱端即可;
3、delete
delete是最簡單的無需關(guān)心的操作,如果一個(gè)delete的復(fù)制命令傳到訂閱端發(fā)現(xiàn)沒有記錄,你會像處理update那樣重新從發(fā)布庫導(dǎo)入這條記錄到訂閱端?那你一定是大腦掉線了……帥鍋,這時(shí)候發(fā)布庫已經(jīng)沒有這條記錄了,然后你會瘋了一樣的問自己腫木辦,腫木辦么?
有人說,在訂閱端insert一條只有主鍵的偽記錄,然后delete就可以正常下去了。沒錯(cuò),這確實(shí)是個(gè)辦法,但不是個(gè)好辦法,畢竟一個(gè)insert你也是要敲上十幾個(gè)甚至幾十個(gè)字符的……其實(shí)處理方法很簡單,已經(jīng)刪了的記錄就沒必要再找回來了,關(guān)掉監(jiān)控就行了;當(dāng)然我指的是MS errors的報(bào)警監(jiān)控。
?
處理方法:
1、定位具體命令
你還在通過復(fù)制監(jiān)視器查看出錯(cuò)信息?那補(bǔ)上一條數(shù)估計(jì)要幾分鐘(等待出錯(cuò)信息刷新的時(shí)間),要是丟了幾十條記錄,那你這一天就不用干別的事情了;
直接從distribution.dbo.msrepl_errors里查吧;

SELECT * FROM distribution.dbo.MSrepl_errors ORDER BY time DESC
2、解析commands
根據(jù)上面查詢的結(jié)果,取出xact_seqno(出錯(cuò)的命令的事務(wù)號)、command_id(命令id),在根據(jù)下面的系統(tǒng)存儲過程定位到具體的語句

USE distribution go sp_browsereplcmds ' 0x00026BBC000A3DDE000400000000 ' , ' 0x00026BBC000A3DDE000400000000 ' -- 兩個(gè)字符串均是上一步獲取的xact_seqno
? 在結(jié)果集中使用上一步的command_id定位到具體的行,取出command,就是出錯(cuò)的命令
3、分析命令
[sp_MSupd_dbotest4] 這是調(diào)用訂閱端的存儲過程名,upd說明是update操作,test4是訂閱端的對象名;
‘a(chǎn)bc’ 這個(gè)是update操作的value,具體對應(yīng)的哪一個(gè)column,那就數(shù)數(shù)逗號吧(自己測試一下就會發(fā)現(xiàn)規(guī)律);實(shí)際上我們并不需要知道要更新哪一列;
10002?? 這個(gè)是主鍵的value,復(fù)制命令到訂閱端執(zhí)行都是按照主鍵去操作的,這個(gè)看一下訂閱端的存儲過程就清楚了;
0x02 ? 這個(gè)是8進(jìn)制的bitmap,簡單說就是這一類操作的位圖值,在這一章不會用到這個(gè),后續(xù)的文章里會涉及到;
至此,distribution的任務(wù)完成了,下面就是本文的關(guān)鍵——修改訂閱端存儲過程
4、修改訂閱端存儲過程
到訂閱數(shù)據(jù)庫里找到對應(yīng)的存儲過程“sp_MSupd_dbotest4”,并生成腳本;
@pkc1 這個(gè)就是test4的主鍵值;看到了吧,復(fù)制命令到訂閱端都是按照主鍵操作的,即便你在發(fā)布端傳入的是update table set a='abc'這樣的全表操作;
而下面的兩個(gè)if + 一個(gè)exec sp_MSreplraiserror 20598,就是判斷當(dāng)更新數(shù)量為0時(shí)(@@rowcount=0)報(bào)一個(gè)20598的錯(cuò)誤;
改造原則:鑒于可能出現(xiàn)同一個(gè)表中多條記錄丟失,我們可以先記錄那些丟失記錄的主鍵,然后批量的根據(jù)主鍵值去一次性導(dǎo)入到訂閱端,這才是簡化的關(guān)鍵;
創(chuàng)建log表;

CREATE TABLE monitor.dbo.tmp_byxl_ReplLostlog ( id INT IDENTITY NOT NULL PRIMARY KEY , -- 記錄序列號 tbname VARCHAR ( 50 ) , -- 表名 t_type VARCHAR ( 10 ) , -- 類型 pkey VARCHAR ( 100 ) , -- 主鍵名稱及鍵值 createdate DATETIME DEFAULT GETDATE () , -- 創(chuàng)建時(shí)間 yn TINYINT DEFAULT 0 -- 是否手動填補(bǔ);0未填補(bǔ),1已填補(bǔ) )
對于update命令,我們需要的信息包括表名(test4)、操作類型(U)、主鍵名及鍵值(id=@pkc1);參照下圖,在存儲過程中的相應(yīng)位置添加insert語句,同時(shí)注釋掉報(bào)警語句;
? 再查詢一下記錄表,我們要的信息就都在這里了。同時(shí),由于關(guān)閉了報(bào)警,分發(fā)代理在下一次重試后可以正常繼續(xù)執(zhí)行下面復(fù)制命令,如果遇到多個(gè)記錄丟失的情況,只要去記錄表中查詢即可;
對于delete命令,正如之前所說,已經(jīng)刪除的命令就沒有必要再找回了,打算留一個(gè)日志的童鞋可以參照update的處理方法,修改訂閱端對應(yīng)的del存儲過程,insert到記錄表中,或者干脆直接注釋掉報(bào)警語句,忽略掉delete操作即可;
5、手動補(bǔ)數(shù)
根據(jù)記錄表中的記錄,可以查看截止到當(dāng)前時(shí)間點(diǎn),之前所有的丟失記錄情況,拼一下sql,用DTS就可以完成批量導(dǎo)入;
?
注意:
1、此方法不建議長期使用,建議手動補(bǔ)數(shù)后注釋掉insert語句,并打開報(bào)警語句;
2、手動補(bǔ)數(shù)后,請將記錄表中已操作的記錄set yn=1,作為標(biāo)記,以免重復(fù)insert時(shí)主鍵沖突;
3、對于聯(lián)合主鍵,存儲過程中默認(rèn)以@pkc1~@pkcn表示,請注意記錄表中pkey字段的長度,以免溢出;
4、示例中僅列出了int型主鍵,對于varchar型主鍵,請自行調(diào)整insert語句中pkey列的值;
?
最后再次強(qiáng)調(diào),修改訂閱端存儲過程存在風(fēng)險(xiǎn),請謹(jǐn)慎操作~
?
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯(lián)系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
