㈠ 如何完整抓取大众点评网数据
用前嗅的ForeSpider数据采集工具,可以完整采集大众点评网的数据。软件可以抽取出所有的链接地址,通过url或标题特征,过滤掉无关的链接地址。对于数据结果,通过可视化的配置,可以完整的采集所有的公开可见内容。软件自带免费的千万级数据库,数据采集入库可以自动排重、清洗和处理。并且可以数据挖掘,挖掘各种不规则的信息。可以下载免费版试一试。
下面是软件的特点:
一.强大:可以抓取互联网上100 %的公开数据
1.内置强大数据挖掘功能。
2.支持用户登录。
3.支持Cookie技术。
4.支持验证码识别。
5.支持HTTPS安全协议。
6.支持OAuth认证。
7.支持POST请求。
8.支持搜索栏的关键词搜索采集。
9.支持JS动态生成页面采集。
10.支持IP代理采集。
11.支持图片采集。
12.支持本地目录采集。
13.内置面向对象的脚本语言系统,配置脚本可以采集几乎100%的互联网公开数据。
二.可视化+爬虫脚本语言+正则表达式
ForeSpider是可视化的通用性采集软件,同时内置了强大的爬虫脚本语言。如果有通过可视化采集不到的内容,都可以通过简单几行代码,实现强大的脚本采集。软件同时支持正则表达式操作,可以通过可视化、正则、脚本任意方式,实现对数据的清洗、规范。
三.集成数据挖掘功能
软件内部集成了数据挖掘功能,可以通过一个采集模板,精准挖掘全网的内容。在数据采集入库的同时,可以完成分类、统计、自然语言处理等诸多功能。
软件与公司的ForeAna数据分析系统对接,可以实现强大的数据分析功能,对数据进行深度的大数据分析。
四.精准:精准采集所需数据
1.独立知识产权JS引擎,精准采集。
2.内部集成数据库,数据直接采集入库。
3.内部创建数据表结构,抓取数据后直接存入数据库相应字段。
4.根据dom结构自动过滤无关信息。
5.通过模板配置链接抽取和数据抽取,目标网站的所有可见内容均可采集,智能过滤无关信息。
6.采集前数据可预览采集,随时调整模板配置,提升数据精度和质量。
7.字段的数据支持多种处理方式。
8.支持正则表达式,精准处理数据。
9.支持脚本配置,精确处理字段的数据。
五.高性能:千万级的采集速度
1.C++编写的爬虫,具备绝佳采集性能。
2.支持多线程采集。
3.台式机单机采集能力可达4000-8000万,日采集能力超过500万。
4.服务器单机采集能力可达8亿-16亿,日采集能力超过4000万。
5.并行情况下可支撑百亿以上规模数据链接,堪与网络等搜索引擎系统媲美。
6.软件性能稳健,稳定性好。
六.简易高效:节约70%的配置时间
1.完全可视化的配置界面,操作流程顺畅简易。
2.基本不需要计算机基础,代码薄弱人员也可快速上手,降低操作门槛,节省企业爬虫工程师成本。
3.过滤采集入库一步到位,集成表结构配置、链接过滤、字段取值、采集预览、数据入库。
4.数据智能排重。
5.内置浏览器,字段取值直接在浏览器上可视化定位。
五.数据管理:数据智能入库
1.数据存储在用户本地计算机,不会上传至前嗅服务器,保证数据独有,更加安全。
2.内置数据库,数据采集完毕直接存储入库。
3.在软件内部创建数据表和数据字段,直接关联数据库。
4.采集数据时配置数据模板,网页数据直接存入对应数据表的相应字段。
5.正式采集之前预览采集结果,有问题及时修正配置。
6.数据表可导出为csv格式,在Excel工作表中浏览。
7.数据可智能排除,二次清洗过滤。
六.智能:智能模拟用户和浏览器行为
1.智能模拟浏览器和用户行为,突破反爬虫限制。
2.自动抓取网页的各类参数和下载过程的各类参数。
3.支持动态IP代理加速,智能过滤无效IP代理,提升代理的利用效率和采集质量。
4.支持动态调整数据抓取策略,多种策略让您的数据无需重采,不再担心漏采,数据采集更智能。
5.自动定时采集。
6.设置采集任务条数,自动停止采集。
7.设置文件大小阈值,自动过滤超大文件。
8.自由设置浏览器是否加速,自动过滤页面的flash等无关内容。
9.智能定位字段取值区域。
10.可以根据字符串特征自动定位取值区域。
11.智能识别表格的多值,表格数据可以完美存入相应字段。
七.增值服务
1.VIP客服持续在线服务,解决各类技术难题,可以远程帮助完成配置。
2.提供大量免费的采集模板,用户可以下载导入。
3.软件被防爬后,免费提供解决方案和软件的针对性升级。
4.免费升级后续不断开发的更多功能。
5.软件绑定账号不固定计算机,可以任意更换使用的计算机。
6.为用户提供各类高端定制化服务,全方位来满足用户的数据需求。
长达8个月之久的琼瑶、于正著作权纠纷案,昨天有了结论。市三中院一审判决于正等五被告连带赔偿琼瑶500万元、刊登致歉声明,并停止传播、发行和复制《宫锁连城》。
宣判后,琼瑶激动不已,发微博称“泪在眼眶”、“只想大喊一句,知识产权胜利了”。于正则对判决结果表示遗憾,并将提起上诉。
看点
1、琼瑶是否有权告?
庭审中,于正等五被告都就著作权一事质疑琼瑶方,提出琼瑶并非《梅花烙》编剧,该电视剧版的编剧署名为林久愉,琼瑶仅是编剧指导而非作者。对此,琼瑶方反驳并递交编剧林久愉的声明予以证明。
法院审理后认为,电视剧《梅花烙》字幕虽有“编剧林久愉”的署名,但林久愉本人出具的《声明书》,已明确表示其并不享有剧本《梅花烙》著作权的事实;电视剧《梅花烙》制片者怡人传播有限公司出具的《著作权确认书》也已明确表述剧本《梅花烙》的作者及著作权人均为琼瑶。
而林久愉根据琼瑶口述整理剧本《梅花烙》,是一种记录性质的执笔操作,并非著作权法意义上的整理行为或融入独创智慧的合作创作活动,所以林久愉并不是剧本《梅花烙》作者。所以《梅花烙》的作者及著作权人均为琼瑶。
2、于正到底抄没抄?
于正是否抄袭是庭审中争论的焦点,也是本次判决中最大的看点。
4月15日,琼瑶在微博贴出了一封写给广电总局领导的举报信,称自己作品《梅花烙》被于正编剧的《宫锁连城》抄袭,并一一列举其抄袭的几个部分。12月5日开庭时,琼瑶方还列举了21个桥段涉及抄袭,并当庭播放了节选。
相对的,于正曾在微博发文回应,称这只是“一次巧合和误伤”。在11月16日的一个讨论会上,于正曾表示,琼瑶指证他抄袭的情节,实际是来自于《红楼梦》。在12月5日的庭审上,于正方称《宫锁连城》和《梅花烙》在人物数量和人物关系上存在实质性区别。
法院经过审理指出,21个桥段中有3个桥段属于公知素材,相关情节安排不具有显著独创性,因而不受著作权法保护。有9个桥段属于公知素材,琼瑶就这些素材进行了独创性的艺术加工,以使情节本身具有独创性,但剧本《宫锁连城》与这些独创设置不构成实质相似。剩余9个桥段,为琼瑶作品中的独创情节,剧本《宫锁连城》中的对应情节安排与这些桥段构成实质性相似关联。由此,认定于正侵权。
3、到底应该赔多少?
琼瑶的诉状中,被告不仅有于正,还包括了湖南经视文化传播有限公司、东阳欢娱影视文化有限公司、万达影视传媒有限公司、东阳星瑞影视文化传媒有限公司。琼瑶方表示,除电视台予以播出以外,《宫锁连城》还登陆了国内多家知名网络电视终端,已形成稳定收益,据此索赔2000万。
但于正方并不认同,认为琼瑶方面“滥用诉权,漫天要价,且通过个人身份、年龄、媒介片面进行舆论渲染”,并恳请法院驳回琼瑶诉讼请求。
法院在认定于正存在侵权行为的基础上指出,推定琼瑶在庭审中主张的于正编剧酬金标准及《宫锁连城》剧的发行价格具有可参考性。但琼瑶关于赔偿经济损失及诉讼合理支出的诉讼请求,缺乏充分的依据。因此,根据涉案作品的性质、类型、影响力、被告侵权使用的情况、侵权作品播出使用的范围以及被告方获利情况和琼瑶为本案支出的律师费、公证费等因素综合考虑,判令于正及四家公司连带赔偿琼瑶500万元。
声音
琼瑶方 知识产权胜利了
昨天下午,案件刚刚宣判,琼瑶就通过“花非花雾非雾官方微博”发声。
琼瑶在微博中写道:“正义终于发出了声音!谢谢三中院,谢谢宋鱼水法官,冯刚法官、张玲玲法官,谢谢内地的法律,让我对人生恢复了信心!此时此刻,激动不已,这个案子已经不是我和于正的个人争议,而是‘是’与‘非’之争,是‘正义’与‘非正义’之争!泪在眼眶,我只想大声喊一句,知识产权胜利了!”
随后不久,琼瑶又借用中国电影文学学会会长王兴东的话表示,“琼瑶诉于正一案,比他们创作一部剧本更具有深远的影响力”,称此是这场官司最正确的评价。琼瑶还预告自己将在下周一发布长微博,“谈谈我的心情和一切”。
琼瑶代理律师王军表示,从5月立案到宣判的8个月时间里,琼瑶本人经历了很大的精神煎熬,判决符合琼瑶的预期,也尊重了事实。
于正方曾谈和解,要上诉
于正则通过于正工作室发表了对判决的观点,称“于正与其他四方被告的合理诉求没有得到支持,对此表示遗憾。我们认为:一审判决认定事实不清,证据不足,适用法律不当。因此,将依法提起上诉,维护合法权益,并期待法律公平公正的裁决”。
王军律师透露,于正曾私下向琼瑶求和解,但并未让人看到诚意。记者为此向负责处理此次诉讼事宜的公关公司负责人刘先生求证。对方表示,的确有过和解,但是不是与琼瑶律师谈和解。于正和解谈的是对琼瑶的敬意,不是歉意。
开庭时,王军曾提出,于正担任编剧的单集稿酬达20万,《宫锁连城》播放60多集,于正本人收益超过1000万。各电视台播放许可费过亿。对此,刘先生表示,收益问题不太好回答。
众编剧版权保护拉开帷幕
琼瑶诉于正侵权案胜诉后,大陆众多编剧通过微博发声,支持琼瑶。
编剧汪海林发微博称,“我代表中国电影文学学会,表达对北京市三中院就于正《宫锁连城》侵权一案的判决的支持和肯定。裁决体现了尊重原创、保护原创的法律精神,这一裁决打击了抄袭剽窃非法改编的行为,是法制的胜利,体现了阳光下的公正”。
此外,《蜗居》《心术》等电视剧的编剧六六也发微博表示:“终于!中国版权保护拉开帷幕。”
相似桥段
琼瑶起诉列举了21个桥段,指证于正《宫锁连城》侵权,包括偷龙转凤、次子告状亲信遭殃、皇上赐婚多日不圆房、面圣陈情、公主求和遭误解等。最终法院认定其中9个桥段与《梅花烙》构成实质性相似关联。
被认定实质性相似关联的桥段举例:
1.偷龙转凤。《梅花烙》中,福晋倩柔为保住地位,用女儿换来一个男孩,取名皓祯,当做自己的儿子。而换出去的女儿被取名白吟霜。《宫锁连城》中,王琳饰演的福晋无子,为保住地位,用女儿换来一个男孩,取名富察恒泰,被换出去的女儿被取名宋连城。
2.公主下嫁。《梅花烙》中,皓祯被皇帝许配了兰公主。《宫锁连城》中,富察恒泰被皇帝许配了醒黛和硕公主。
专家说法
500万赔偿并不算高
昨天晚上,记者就此案采访了北京市中闻律师事务所资深知识产权法律师许红亮,他曾代理很多知识产权类案件。
据许红亮分析,知识产权类案件,并无明确统一的赔偿标准。确定此类案件的赔偿数额,考虑的因素远比一般民商事案件复杂。以本案为例,一旦认定于正等多方侵权,确定赔偿数额时,就要综合考虑涉案剧的收益、传播度和影响力等因素。法院的判决里已经提及这些因素,确定500万的数额也是综合考虑了这些因素。500万的赔偿数额虽然绝对数字比较大,但在知产类案件里并不大。特别是《宫锁连城》这部剧,传播范围广泛,收视率高,在观众中的影响力大,其收益肯定也远远大于500万元。由于此类案件在具体的法律里没有统一和明确的补偿标准,因此没法说500万元是否是顶格判处。
许红亮说,从判决的意义而言,虽然于正一方已经上诉,判决还没有生效,但该案也具有标杆性意义,双方都是家喻户晓的编剧,其作品也具有极高关注度,该案体现了对著作权这一知识产权的尊重,对抄袭行为进行了打击和警示,有助于形成尊重原创的良好氛围。
(来源:京华时报)
㈢ 日本战国时期国名
日本战国历史可与中国战国相比拟。各地大名林立,为争夺霸权攻伐不休。而且也是“无义战”。 其间人名地名繁多,大战小战难以数计。不过,从地区划分讲也许更 容易了解其中形势。
现在的日本可分为四部分:由西南向东北依次为九州,四国,本州和 北海道。战国时的九州,四国与现在所称相差不大。北海道则因其地处偏远,战国史中少有涉及。而本州则是四方征伐的中心。以京都为中心。当时的本州共分为中国,近畿,东海,北陆,关东,东北六个地区。 近畿以当时国都京都为中心,包括京都,奈良以及以后丰臣的大坂。其西部与中国地区相邻。近畿地区东部南与东海地区(后来的织田信长凭借这个有利条件,控制京都,挟天子以令诸侯)为邻,北与北陆地区接壤。 东海,北陆东与关东地区为邻。而关东与北陆又东邻东北地区。 室町幕府统治一百多年后开始衰落。各地强有力的大名纷纷自立为政。一般以 1467年(应仁元年)为日本战国的起始到1615年德川家康发动大坂夏之战,攻灭丰臣秀赖统一日本为止共148年的历史。
战国前期的大战多集中与中国地区与京畿地区。一般是传统意义上控制京畿的战争。参与者多为近畿地区而且在京都有相当势力的大名。 从十六世纪初北条家争夺关东霸权开始战争中心东移至东海关东,北陆地区。而这一时期也是日本战国人材辈出的时代。其中以关东的北条氏康,越后(属北陆地区)的上杉谦信,甲斐(东海地区)的武田信玄之间为争夺关东,信浓等地的霸权的战争为代表。而东海地区因为有甲斐的武田信玄,尾张的织田信长和后来统一日本的三河德川家康而成为战国时期的英才发源地。武田信玄经过多年战争击败苦主上杉谦信及北条今川等大名夺取骏河信浓等地,成为当时最强的大名。后来武田受没落将军足立义昭之命进军京都,途中在三方原一战(1572年)大败德川家康,令织田信长坐立不安。但其后因病突然撤军,功败垂成。信玄死后,其子胜赖才具不足,长涤之战败于织田德川联军。甲斐从此走向衰落。武田死后不久,其死敌上杉谦信也病死。至此,战国的重心转向织田一系。织田信长是日本战国时期的大名(诸侯)之一,与武田信玄,德川家康一时瑜亮,一生传奇颇多。
在狭桶间合战中,他在暴雨中高唱著“人间五十年,宛如梦幻,天下之内,岂有长生不灭者” 以四千兵马奇袭今川义元的四万军队,并砍下今川的首级。他也是第一位在日本史上大量运用火器的领主,在长筱一站中,用铁栅栏后的三千铁枪击溃武田家号称无敌的五万铁骑兵。织田与德川家康结成同盟,史称“清州同盟,”统一 尾张、美浓后把主城从清州城移至美浓稻叶山城,并将稻叶山城 改名为“岐阜”城,取周文王凤鸣岐山,一统天下之意。而后开始推行“天下布武”的策略,要以武力统一全国。在灭掉越前朝仓氏、近江浅井氏并流放足利义昭(幕府),击败毛利水军之后,完全控制了中部。正当义气飞扬的他准备攻打西部的毛利时,他的大将明智光秀,因憎恨信长斩首武田人质而迫使武田杀了光秀的母亲,也因为不堪信长的羞辱和猜忌,起义包围了他下宿的本能寺,信长不愿被擒,于是自焚而死。信长被人认为是明君,也是魔鬼。他有温和大度的一面,也有常人无法理解的残忍奸恶的另一面。这个自称为“第六天魔王”的人给后世留下了多少的憎恶和向往。
信长的时代是日本崇尚中国文明的时代,也是日本开始引入西方技术的时代。武田家出了熟读孙子兵法的信玄,高举著的“风林火山”(来自孙子兵法的疾如风,静如林,侵掠如火,不动如山)而他终身的对手信长却是热衷西洋文化,购置火枪铁炮,和用铁甲船来对付他的敌人。相传他一度身穿和服,却批著西班牙海军的斗蓬戴著羽毛帽招摇过市。 我们也许可以从当时的详细记录的礼仪和战史中体会到不少让国人感叹和共鸣的感受吧。 织田信长在武田信玄死后立即消灭忠于足利氏的浅井朝仓两大名,接着放逐足利义昭。室町幕府至此终结。
此后,织田击败武田军并且逐渐控制近畿,东海地区,成为日本实际的掌权者。接着织田信长派羽柴秀吉进攻中国地区最强的大名毛利辉元。双方在相持阶段时突然传来织田大将明智光秀火烧本能寺(1582年),织田信长死难的消息。 织田信长筑安土城自居,故其统治时期被称为安土时代。 羽柴秀吉立即与毛利辉元议和,回师平叛。其后,羽柴秀吉击败柴田胜家(1582)。次年在小牧长久手之战后与德川家康议和,巩固了他对近畿,东海地区的统治。在后来的四国征伐,九州征伐后基本统一日本南部。
1590年,丰臣秀吉发动小田原之战,攻灭北条氏政,统一关东地区。为镇抚关东各大名的势力,丰臣秀吉将德川家康改封到关东。为后来德川称雄埋下伏笔。同年,丰臣秀吉击败伊达政宗等奥州诸大名联军,征服东北地区。至此,日本统一。
为实现其定都北京的野心。1592年丰臣秀吉下令侵朝。明派军队援助朝鲜。 经五年战争后,形势逐渐对日军不利。1598年,丰臣秀吉病死,遗命从朝鲜撤军。 丰臣秀吉筑大坂城。其统治时期称为桃山时代。 丰臣秀吉死后,其家臣分裂为近江,尾张两派。一直韬光养晦的德川家康乘机联合尾张一派,在关原之战(1600年)中消灭西军,丰臣一系势力大衰。
德川称雄日本并于1603年受封征夷大将军,开始了江户幕府统治。 为最终奠定德川家长久统治的基础,德川家康在自己死前两年内发动大坂冬和大坂夏之战。 大坂夏之战(1615年)中德川军攻陷大坂,丰臣秀吉之子丰臣秀赖自杀身死。忠于丰臣的家老武士几乎全部战死。显赫一时的丰臣家被消灭。 德川受封江户(现东京),其政权称江户幕府。 至此,日本最终统一。战国时代结束,进入江户幕府时代。