维基百科:机器人/申请/Cewbot/8
外观
- 状态: 已批准
- 操作者: Kanashimi(留言)
- 提请时间: 2015年10月2日 (五) 16:57 (UTC)
- 编程语言:JavaScript。
- 用途:修复维基百科内容的语法错误。
- 讨论内容连结: 维基百科:错误检查专题。
- 编辑时段及频率:每分钟最多自动编辑10次。
- 受影响页面:[1]
- 遵守机器人规范:是。
- 于其它语言所获权限:无。
测试运作记录/范例:User:cewbot/log/20151002,欢迎提供各种特殊情况以作测试,并请协助检查错误。 --Kanashimi(留言) 2015年10月2日 (五) 16:57 (UTC)
- Checkwiki范围太大了,请具体列出意图修复的错误类型。--Jimmy Xu 论 2016年2月1日 (一) 08:01 (UTC)
- 谢谢回应。本次作业预计先从能安全辨识并修正的Priority:high开始,再往middle移动。当前准备先处理的,有 #2,5,8,10,13,29,80,102等。--Kanashimi(留言) 2016年2月1日 (一) 08:31 (UTC)
- 各给点样例吧。而且刚随便看了看,比如80的16个夏天,这个外部链接就是故意写成这样的,能处理么?--Jimmy Xu 论 2016年2月1日 (一) 08:39 (UTC)
- 样例请参考 User:Cewbot/log/20151002,这边会再添加些。像是16个夏天,会因为找不到合适的 "]]",最后跳过,显示成"尚留有需要人工判别之..."之类。--Kanashimi(留言) 2016年2月1日 (一) 09:12 (UTC)
- 看log感觉还是跑一跑就能碰到问题及需要回退。之前这种bot跟改错别字的一样社群都不太喜欢来着,感觉能接受的就是所有编辑都人工检查一遍再提交。要么你调整满意了再跑一百次编辑看看吧。--[[User:::::::|Jimmy Xu]] 论 2016年2月1日 (一) 23:15 (UTC)
- OK. 待完成再回报。--Kanashimi(留言) 2016年2月2日 (二) 00:10 (UTC)
- Done. 基本上这边仅处理确认属于本次任务之 pattern。对于无法解析或有问题者,跳过不处理之。采取的是宁可漏判 (false negative) 也不误判 (false positive)。因此较不需要担心。想顺便请教一下现在最大延迟参数怎么设的,虽然这边设定5秒,但还是会遇上 lost token?--Kanashimi(留言) 2016年2月2日 (二) 02:02 (UTC)
- 再快一点的话就会lost token,建议可以放慢速度。--Engle跃【✉✈㍿♛№】丙申年快到了,释放幸福吧! 2016年2月2日 (二) 02:05 (UTC)
- 这边的困惑是因为网络延迟,实际呼叫一定大于 5 s,所以照理应该总是符合最大延迟参数。假如不是最大延迟参数的问题,恐怕就是其他地方得做调整了。之前只在连续几天跑User:cewbot/log/20150109时遇过这样的问题,但那时是量大。这次只跑到100页就出问题了。--Kanashimi(留言) 2016年2月2日 (二) 02:21 (UTC)
- 这种不影响解析的不要专门去修,如果这页有换行的顺便改改就好,没有的直接跳过吧。还有这一拨为什么只有80,你还想搞啥都跑10个看看吧。API的问题来IRC,有点不知道你在说什么……--Jimmy Xu 论 2016年2月2日 (二) 03:35 (UTC)
- @Kanashimi:lost的是csrf token还是user token?--Antigng(留言) 2016年2月2日 (二) 08:21 (UTC)
- @Jimmy Xu: 不影响解析的不要专门去修,如果这页有换行的顺便改改就好: OK. @Antigng: csrf吧。
- @Kanashimi:lost的是csrf token还是user token?--Antigng(留言) 2016年2月2日 (二) 08:21 (UTC)
- 再快一点的话就会lost token,建议可以放慢速度。--Engle跃【✉✈㍿♛№】丙申年快到了,释放幸福吧! 2016年2月2日 (二) 02:05 (UTC)
- 看log感觉还是跑一跑就能碰到问题及需要回退。之前这种bot跟改错别字的一样社群都不太喜欢来着,感觉能接受的就是所有编辑都人工检查一遍再提交。要么你调整满意了再跑一百次编辑看看吧。--[[User:::::::|Jimmy Xu]] 论 2016年2月1日 (一) 23:15 (UTC)
- 样例请参考 User:Cewbot/log/20151002,这边会再添加些。像是16个夏天,会因为找不到合适的 "]]",最后跳过,显示成"尚留有需要人工判别之..."之类。--Kanashimi(留言) 2016年2月1日 (一) 09:12 (UTC)
- 各给点样例吧。而且刚随便看了看,比如80的16个夏天,这个外部链接就是故意写成这样的,能处理么?--Jimmy Xu 论 2016年2月1日 (一) 08:39 (UTC)
- 谢谢回应。本次作业预计先从能安全辨识并修正的Priority:high开始,再往middle移动。当前准备先处理的,有 #2,5,8,10,13,29,80,102等。--Kanashimi(留言) 2016年2月1日 (一) 08:31 (UTC)
log: 連續4次都是: wiki_API.edit: Error to edit ....: [badtoken] Invalid token wiki_API.prototype.next: It seems we lost the token. wiki_API.prototype.next: No password to get token again. About.
- 不确定与Tech News: 2016-05有无关系。
“ | 部分用户在1月22日出现登录和退出困难。机器人同样遭遇这一问题,并且编辑预览不能正常工作。这是由于与会话管理器(SessionManager)组件相关的问题导致的。它已于1月23日回退,并在上周取消部署。 | ” |
- 之后改成 5010 ms,准备看看结果。 --Kanashimi(留言) 2016年2月2日 (二) 08:36 (UTC)
- @Kanashimi:,发现csrf token过期时你有没有检查过user token/session是否过期呢?--Antigng(留言) 2016年2月2日 (二) 08:40 (UTC)
- 没debug,就没注意了。但login两三分钟内,应该不至于过期。--Kanashimi(留言) 2016年2月2日 (二) 08:46 (UTC)
- edittoken每次edit之前都新拿一个,不要像之前那样拿一次编辑几十条。--Jimmy Xu 论 2016年2月2日 (二) 08:52 (UTC)
- 没debug,就没注意了。但login两三分钟内,应该不至于过期。--Kanashimi(留言) 2016年2月2日 (二) 08:46 (UTC)
- @Kanashimi:,发现csrf token过期时你有没有检查过user token/session是否过期呢?--Antigng(留言) 2016年2月2日 (二) 08:40 (UTC)
- 之后改成 5010 ms,准备看看结果。 --Kanashimi(留言) 2016年2月2日 (二) 08:36 (UTC)
- 您的意思是重跑一次 action=query&meta=tokens 吗?--Kanashimi(留言) 2016年2月2日 (二) 09:04 (UTC)
- 是。--Jimmy Xu 论 2016年2月2日 (二) 09:08 (UTC)
- 机械软件总觉得好像被强迫更新了。重抓token吧!--Engle跃【✉✈㍿♛№】丙申年快到了,释放幸福吧! 2016年2月2日 (二) 09:10 (UTC)
- OK. I'll try. @Jimmy Xu: 您在编辑时是否有经过重整程式呢,例如{{反缩排}}会转成{{od}}。--Kanashimi(留言) 2016年2月2日 (二) 09:12 (UTC)
- 我的第一个任务(User:Antigng-bot/checkredirect)是取一个edittoken做一次编辑。后来为了提高编辑速度做了多线程的支持,用一个单独的线程获取csrf token,如果某一个线程提交编辑以后发现invalid token就把该线程唤醒,重新跑一次action=query&meta=tokens。之前csrf token过期的速度不是确定的,做User:Antigng-bot/fix的时候一小时都没过期,有的时候十几分钟就过期了。但如果现在由于种种原因编辑不足100次就一定会过期,那我什么事情都做不了了。--Antigng(留言) 2016年2月2日 (二) 09:18 (UTC)
- 本来就不是给你这么用的。--Jimmy Xu 论 2016年2月2日 (二) 09:19 (UTC)
- 怎么用?--Antigng(留言) 2016年2月2日 (二) 09:27 (UTC)
- 合同里从来没说过会什么时候过期啊,所以依赖这个过期时间的行为肯定不靠谱啊。--Jimmy Xu 论 2016年2月2日 (二) 09:32 (UTC)
- 我说的“事情都做不了”指效率比现在低,不是程序会死。--Antigng(留言) 2016年2月2日 (二) 09:36 (UTC)
- 本来bot的编辑频率也不要那么高。--Jimmy Xu 论 2016年2月2日 (二) 09:39 (UTC)
- 我说的“事情都做不了”指效率比现在低,不是程序会死。--Antigng(留言) 2016年2月2日 (二) 09:36 (UTC)
- 合同里从来没说过会什么时候过期啊,所以依赖这个过期时间的行为肯定不靠谱啊。--Jimmy Xu 论 2016年2月2日 (二) 09:32 (UTC)
- 怎么用?--Antigng(留言) 2016年2月2日 (二) 09:27 (UTC)
- 本来就不是给你这么用的。--Jimmy Xu 论 2016年2月2日 (二) 09:19 (UTC)
- 我的第一个任务(User:Antigng-bot/checkredirect)是取一个edittoken做一次编辑。后来为了提高编辑速度做了多线程的支持,用一个单独的线程获取csrf token,如果某一个线程提交编辑以后发现invalid token就把该线程唤醒,重新跑一次action=query&meta=tokens。之前csrf token过期的速度不是确定的,做User:Antigng-bot/fix的时候一小时都没过期,有的时候十几分钟就过期了。但如果现在由于种种原因编辑不足100次就一定会过期,那我什么事情都做不了了。--Antigng(留言) 2016年2月2日 (二) 09:18 (UTC)
- @小躍:"机械软件总觉得好像被强迫更新了" 您的意思是因为这次MediaWiki 系统更新吗?--Kanashimi(留言) 2016年2月2日 (二) 09:20 (UTC)
- 对,所以吉米请你重抓。--Engle跃【✉✈㍿♛№】丙申年快到了,释放幸福吧! 2016年2月2日 (二) 09:22 (UTC)
- phab:T124440会不时地让用户登出,不知道和阁下观察到的现象有没有关系。--Antigng(留言) 2016年2月2日 (二) 09:24 (UTC)
- 对,所以吉米请你重抓。--Engle跃【✉✈㍿♛№】丙申年快到了,释放幸福吧! 2016年2月2日 (二) 09:22 (UTC)
- 是。--Jimmy Xu 论 2016年2月2日 (二) 09:08 (UTC)
- @Jimmy Xu: 已做了些测试,麻烦再看一下。--Kanashimi(留言) 2016年2月2日 (二) 12:00 (UTC)
2: 包含不正確的<br /> 5: HTML注釋未首尾對應 8: 章節標題未以「=」結尾 10: 連結方括號未對應 13: 數學 tag 未首尾對應 15: 代碼 tag 未首尾對應 14: 源代碼 tag 未首尾對應 23: nowiki tag 未首尾對應 24: pre tag 未首尾對應 29: 圖片集 tag 未首尾對應 80: 外部連結中起新行或含有不必要的空格 102: PMID語法錯誤 若全無變更,則預設僅從 console 提示,不寫入 log 頁面。因此無變更者將不顯示。
- 关于登出的问题,看来恐需要连 HTTP handler 都重换一个,重起 cookie。--Kanashimi(留言) 2016年2月3日 (三) 00:17 (UTC)
- 2写
</br>
的不影响渲染,不要专门去修。双哈恩多项式这是在干啥,而且多几个空格也不是问题。这个可以更灵活点。本来就太乱的不要垃圾进垃圾出。--Jimmy Xu 论 2016年2月3日 (三) 00:57 (UTC)- 感谢帮忙纠错。除了
</br>
外已修改。关于</br>
,由于留着的话还是会被列在list,我想还是改改好了。--Kanashimi(留言) 2016年2月3日 (三) 06:01 (UTC)- 列在那儿不是制造无意义编辑的理由,别看就是了……看到测试编辑的这些应该问题不大,其他的想放开跑的话拿diff来吧。--Jimmy Xu 论 2016年2月3日 (三) 07:06 (UTC)
- 感谢帮忙纠错。除了
- 10、80、102已批准。--Jimmy Xu 论 2016年2月3日 (三) 07:06 (UTC)