芯友网Xin1234.COM

在数据库(SQL server)里面放了几十万URL,然后使用多台电脑(数据量不定),怎样才能让不同的电脑获取唯一的url,不会重复也不会遗漏呢?冬瓜老师,给个思路呗



觉睡猬刺着抱
?大家一个问题,在数据库(SQL server)里面放了几十万URL,然后使用多台电脑(数据量不定),怎样才能让不同的电脑获取唯一的url,不会重复也不会遗漏呢?
冬瓜老师,给个思路呗
ocraS
每台电脑获取一个url?不会重复明白,不会遗漏啥意思
觉睡猬刺着抱
就是,同时使用多台电脑采集这些url,不希望有重复采集或者遗漏
ocraS
那要和几十万台电脑同时干?
有多少个url就多少个电脑?
寞寂花烟比他
50万,5台电脑,按id分区,每台只查10万
觉睡猬刺着抱
不是,上面的表述有问题了,我重新描述一下问题
ocraS
光区分是不行的
应该要考虑到并行的问题,应该是要做个服务(代理),不直接操作数据库,由代理来分配资源
觉睡猬刺着抱
在数据库(SQL server)里面放了几十万URL,使用多台电脑(数据量不定)同时采集这些网页的内容,怎样才能使多台电脑不重复采集这些url
gniogg
先全部采集,再筛选重复的
ocraS
从程序上讲,这个多台电脑上的采集程序是一样的,靠sql语句不一样来分区间对于固定的url是可以的,对于不定的url来说就不行
觉睡猬刺着抱
url不固定
ocraS
这样啊,做个服务,不直接和数据库打交道,服务中加载全部的url,客户机与服务交互,获取url,直到获取不到url为止,因为url的管理都是服务一个完成的,可以做下多线程的处理,就不会重复
客户机不和数据库直接交互,全部通过服务代理
觉睡猬刺着抱
谢谢,我去了解一下
ocraS
比如说服务代理给A机器分配了一个url,那么这个url就不能也不会分配给别的机器
觉睡猬刺着抱
有资料或网站嘛,让我参考一下
ocraS
这个蛮简单,我没有资料,但这方案肯定行,在服务端假设有个List<string>   ,这个加载到内存中,或者由客户机来触发加载,然后服务回给客户机一个url,哪个客户机要就给个url
觉睡猬刺着抱
谢谢,我去网上找找
去神
这个事情..你把你要做的用文字一步一步的分解到纸上就行了...
鼠松老只抓
好厉害,你们在讲啥,我完全听不懂
好厉害,你们在讲啥,我完全听不懂
觉睡猬刺着抱
ocraS
如果你想简单的做,也可以,用事务,写个存储过程即可
但存储过程里面要用上事务,防止重复获取
水若善上
好厉害,你们在讲啥,我完全听不懂
觉睡猬刺着抱
一向你们?问题,就发现自己啥都没学到家,都不敢说自己会数据库了
风随事往
远致
 有:)在吗?
? 这个网址  有 这个页面的
能否添加pagesize=10000让他 不分页显示
直接一页显示所有
觉睡猬刺着抱
不能
远致

有没有其他办法?
有啊,直接访问数据库
远致
我进不去呀

相关问题
------分隔线----------------------------
赞助商链接
赞助商链接
推荐内容