经验分享:社会工程学数据库搭建TIPS

最近一直在搞社工库的搭建。网上这方面也有很多文章,但是很少涉及到细节,在此与大家分享一些个人心得。

测试环境

测试坏境:windows server 2012(x64,16G 内存) ,MySQL-5.0.90,php-5.2.14-Win32

准备工具:coreseek-4.1-win32,Phantom 牛的源码

搭建过程

1,首先查看要索引表的字段,以便于在csft_mysql.conf 文件中配置

 

 

我们修改csft_myxql.conf 文件。(coreseek 3.2.14 不支持sql_query_string =)

 

 

注意Sql_query 中的字段必须和我们nan1 表中一致、

要支持cjk(中,日,韩简写)的查询我们必须用它的专用charset_table

因此我们应当在index mysql 中加入charset_table(因数据量过长此处就省去,请查看我

的配置文件)

2,让sphinx 支持实时索引,以便于我们后期解决某个问题。后来发现还是没有解决成功

什么是实时索引就不再纂述了:) 

 

应当添加到index mysql 下方,具体请参照配置文件。修改好配置文件后请用UTF-8 without

BOM 格式保存以便程序读取配置文件。

3,建立索引,并启动 

 

因为是测试数据量很小,因此程序启动成功

若数据量超过1 亿将显示内存不足

 

 

将mem_limit = 1M 设置成1M 重新建立索引,若还是提示内存不足

将表数据分割,依赖实时索引动态插入数据(ps:如果大牛还有更好的办法请与我联系)

因测试我们用nan4 表做演示

此处我们有三种方法来分割表

Code:create table nan3 select distinct
firstname,lastname,email,username,password,hash,addr1,addr2,jumin1,jumin2,sex,s
sn from nan4;
create table nan3 Select
firstname,lastname,email,username,password,hash,addr1,addr2,jumin1,jumin2,sex,s
sn from nan4 group by
firstname,lastname,email,username,password,hash,addr1,addr2,jumin1,jumin2,sex,s
sn from nan4;
//两句代码效果都一样去除username,password....sex 中内容相同的插入nan3 表,为有人
不理解我是意思,我截图示之,本人表达能力有问题

 

Group by 语句差不多;

昨晚喳喳同学告诉了我一个直接去除表中重复内容的语句我也贴上来,感谢他了(ps:和他研究了一晚上,没办法啊,人笨。)

Code:delete from temps where id in (select id from (select
id from temps as s where (select count(*) from temps as a
where a.username=s.username and a.password =s.password)>1
and id not in(select id from(select id,count(distinct username,
password) from temps as s where (select count(*) from test4
as a where a.username=s.username and a.password =s.password
)>1 group by username) as sss))as ttt)

注意:此处id:需为自增ID

分割表时不要用limit 参数与distinct 参数混用容易造成卡死,且得多次去重

create table tempss select * from nan3 limit 0,3;
create table temp select * from nan3 limit 3,5;

create table tempss select * from nan3 limit 0,3;create table temp select * from nan3 limit 3,5; 

 

OK,现在我们已经分成两个表,并手动给两个表添加自增ID(temp id 最大值为4,temps id 最小值为5),我们将一个temp 表建立索引,并启动 

 

话说不知道是我人品的问题还是那啥,因此我们需要稍改一下search.php 的源码 

 

搜索结果 

 

insert into temp select * from tempss;//将tempss 的数据插入到temp 

 

插入后搜索结果 

      

我对不起大家经过我的测试实时索引重启后还是出现内存不足的情况,且只能修改我们索引

后的id 对应字段参数值。(留待大牛解答了)

补充TIPS

如果你恰好有韩国的或者小日本的数据库,又恰好的先导入进去了(入库没啥好说的,数据库编码最好统一为utf8),编码也设置成949

或者euckr 

 

可能下面的语句能帮到您:

create table test4 select username ,password from test1 union
select username,password from test2;
//将test2 表与test1 表比较清除重复后插入test4 中;(ps:字段数据类型可
以不同)
ALTER TABLE test4 DEFAULT CHARACTER SET utf8 COLLATE utf8_gen
eral_ci;
//不解释
alter table nan1 modify column username varchar(50); //修改username 的数据类型
alter table $table add $username varchar(50) null; //添加新字段

程序下载地址,提取码4su4

参考文章

http://blog.csdn.net/rulev5/article/details/7572482

http://tesfans.org/using-sphinx-search-engine-with-chinese-japanese-and-korean-language-documents/

http://zone.wooyun.org/content/9377

欢迎志同道合的朋友与我交流:[email protected],作者:InN0t

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/140924.html<

(0)
运维的头像运维
上一篇2025-03-04 04:14
下一篇 2025-03-04 04:15

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注