利用thomson data analyzer进行数据分析

155
利用Thomson Data Analyzer进行数据分析 Thomson Reuters 张帆

Upload: others

Post on 15-Jan-2022

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 利用Thomson Data Analyzer进行数据分析

利用Thomson Data Analyzer进行数据分析

Thomson Reuters

张帆

Page 2: 利用Thomson Data Analyzer进行数据分析

分析流程

明确问题

检索并下载数据

数据清理

数据分析

仔细研究分析结果

提出进一步的问题

决策者 分析师

终得到清楚、准确、简明的分析结果

Page 3: 利用Thomson Data Analyzer进行数据分析

提纲

• Thomson Data Analyzer概况

• 数据采集与数据导入

• 数据规范/数据结构化

• 数据分析

• 生成报告

• 分析案例

Page 4: 利用Thomson Data Analyzer进行数据分析

TDA简介

• Thomson Data Analyzer (TDA),是一个具有强大

分析功能的文本挖掘软件,可以对文本数据进行多角度的数据挖掘和可视化的全景分析。TDA能够帮

助您从大量的专利文献或科技文献中发现竞争情报和技术情报,为洞察科学技术的发展趋势、发现行业出现的新兴技术、寻找合作伙伴,确定研究战略和发展方向提供有价值的依据。TDA在数据的导入,数据的清理,数据的分析,和

分析结果的报道方面都具有独特的功能。

Page 5: 利用Thomson Data Analyzer进行数据分析

数据导入• TDA能够兼容的数据包括: • 任何结构化的数据库,无论是汤姆森公司自身的数据或者商业数据 (可利用

Import Engine Editor导入) • 来自于不同平台如 Dialog, STN, Questel.Orbit, Delphion®, and Derwent

Innovations IndexSM 的德温特数据(Derwent World Patents Index® (DWPI) • 来自于Thomson Innovations的专利数据

• 来自于 Dialog 和STN 的Patents Citation IndexTM • 来自于PatentWeb®, Aureka®, 和 Delphion 的全文专利文献

• 通过ISI Web of KnowledgeSM 的Inspec和Web of Science® 数据库的当今与回溯性的综合性期刊信息.

• 当数据导入之后自动形成概要集合以便您及时看清趋势.• 您可以用不同来源的数据创建复合记录以便可以了解某个主题的不同侧面.,

e.g. 例如将PCI 引文信息复合到DWPI完整记录;将 INSPEC 分类信息复合到Web of Science 引文记录.

• 预置的工具可使您完成自动分析 (宏) ,仅需要点击就可以对某一公司或者某项技术获得详细报告,或者得到5个公司的详细比较信息.

Page 6: 利用Thomson Data Analyzer进行数据分析

数据管理

• 包括数据特性和数据统计信息( Dataset Properties, field statistics)

• 字段的更名以及增加删除等 (Rename/copy/delete/merge fields)

• 将当前的数据集拆分 (Create Sub-dataset)

• 文件的合并 ( Merging files)

-----将两个数据集合合并成一个新的数据集合(Data Fusion)

------或者也可以以一个集合为主,另一个为辅, 将辅助集合中的字段添加到主集合的记录中(Record Fusion)

• 记录的去重与合并 (Dealing with duplicate)

Page 7: 利用Thomson Data Analyzer进行数据分析

数据清理:

• 高质量的数据分析结果首先取决于数据的准确性与完整性,由于标引的不一致、输入的错误、文献著者或发明人的不同写法、科研机构或专利授权人的不同表达方式等造成了原始数据的不一致性,如果对数据不加以整理或合并,在统计分析时就会产生一定程度的误差,进而会影响到整个分析结果的准确性。TDA软件内部设有多个叙词表,为您提供快速的自动数据清理

的功能,只需点击一个按钮,数据整理工作即可自动完成。用户还可建立自己的叙词表,对著者/发明人、科研机构/专利申请人/专利授权人、国际专利分类号、等字段加以清理。

Page 8: 利用Thomson Data Analyzer进行数据分析

数据分析:

• 有效的分析可将无序的数据转化为高附加值的情报,TDA为您

提供了一系列的分析功能,帮助您解决所面临的从简单到复杂的各类问题。

• List: 快速排序分析各个字段, 生成各种图表。

• List comparison: 对比任何两个列表,揭示其共性或发现某列

表的独特性。例如对比分析两个科研机构或两个竞争对手。

• Matrices: 通过Co-occurance矩阵,Auto-correlation矩阵, Cross-correlation矩阵, 发现隐含的发展趋势或相关性。

• Maps: 通过数据图谱将数据分析的结果可视化,例如将主因素分析、相关性分析的结果以Map的方式表达出来,揭示机构

间,科研人员间或各类技术之间的关系。

Page 9: 利用Thomson Data Analyzer进行数据分析

生成报告TDA帮助您快速生成各种报告,为决策者更快做出更好的决策提供依据。只需点击按钮即可生成公司报告、公司间的比较、和对某一技术的深入分析结果。

• 对公司而言

• 对竞争对手、潜在的合作伙伴甚至您的公司,您可以发现::• 研究进展和商业策略 – 以发现未来的策略

• 当今产品的优势与弱势 – 可用于许可 、 兼并与收购等机会

• 多产的发明人及其合作伙伴 – 用于猎头 / M&A • 对技术前景而言

• 您可以聚焦某个特定技术及其发明人以发现:

• 研发的机会

• 出现的趋势与模式

• 热门的技术 (或者仅是骗局) • 适用已存在技术的新领域

Page 10: 利用Thomson Data Analyzer进行数据分析

提纲

• Thomson Data Analyzer概况

• 数据采集与数据导入

• 数据规范/数据结构化

• 数据分析

• 生成报告

Page 11: 利用Thomson Data Analyzer进行数据分析

案例: 经编行业专利分析 (Warp Knitting)• 把平行排列的经纱编织成为经编针织物的针织机。经编机出现较早,1775年英国人J.克雷恩发明第一台单梳栉钩针经

编机。经编机种类很多,按结构特点主要有特里科型和拉舍尔型两大类。在特里科经编机上,由织针引出的织物与针杆平面间夹角约为115°,织物由沉降片

和牵拉辊一起牵拉,使刚形成的线圈转向针背,脱离编织区。这一类经编机一般使用钩针或槽针,机号和机速较高,适用于编织组织结构和花型比较简单的经编针织物。在拉舍尔经编机上,织物引出方向与针杆平面间夹角在140°以上,织物仅靠牵拉辊牵拉。拉舍尔经编机一

般使用舌针或槽针,机号与机速较低,适用于编织组织结构和花型比较复杂的经编针织物。

Page 12: 利用Thomson Data Analyzer进行数据分析

总体发展趋势宏观分析

• 地区覆盖范围 (国家、地区)

• 创新性活动进展 – 时间序列分析 (优先权年, 近15年)

• 专利权人趋势 (专利权人名称)

• 排名靠前的专利申请者的地区分布 (Top30)

• 排名靠前的专利申请者其专利申请活动的时间分布( 近15年)

• 技术发展趋势(时间分布、地区分布、专利权人分布)(Manual Code、NLP words、

• 热点技术(时间分布、地区分布、专利权人分布)

• 高影响力专利

Page 13: 利用Thomson Data Analyzer进行数据分析

检索相关专利

Page 14: 利用Thomson Data Analyzer进行数据分析
Page 15: 利用Thomson Data Analyzer进行数据分析
Page 16: 利用Thomson Data Analyzer进行数据分析

数据下载

Page 17: 利用Thomson Data Analyzer进行数据分析

案例分析

Thomson Data Analyzer:

1. 数据源导入Thomson Data Analyzer

• 预制的数据源格式:17种格式,如:WoK-DIIWoK-INSPECWoK-WoSAureka – PatentDelphion-DWPIDelphion - Patent

• 根据需要自己订制导入的数据源格式:

Page 18: 利用Thomson Data Analyzer进行数据分析

数据导入

Page 19: 利用Thomson Data Analyzer进行数据分析
Page 20: 利用Thomson Data Analyzer进行数据分析
Page 21: 利用Thomson Data Analyzer进行数据分析

数据拆分

• 关键词拆分

• 字段拆分

• 数值拆分

提高分析人员的自由度,大大提高分析深度和广度。

分析工具: Thomson Data Analyzer

Page 22: 利用Thomson Data Analyzer进行数据分析

全面的分析

将来自不同数据库的数据合并,弥补单一数据库的不足;可将科技文献和专利文献合并分析,例如可将SCI数据和

DWPI数据合并分析

分析工具: Thomson Data Analyzer

Data Fusion-两个数据集合合并生成第三个数据集合.用于向已有的数

据集合中添加补充的数据

Record Fusion—将一个数据机和作为主要部分,另一个作为附加.在数据融合过程中,附加集合的字段会被加到主要集合中. 用于将其它数

据库收集的有用信息添加到数据集合中. (e.g. 将Inspec 分类数据添加到Web of Science记录, 或者将DWPI Manual Code加到原始专利

数据

Page 23: 利用Thomson Data Analyzer进行数据分析

DWPI Abstract 的价值

• Novelty (Abstract-DWPI Novelty/NOV): 描述发明的独特性.

• Detailed Description (Abstract-DWPI Detailed Desc/DTD): 当在Novelty字段无法

总结发明主要的权利主张时,摘要中会出现此字段。

• Activity (Abstract-DWPI Activity/ACT): 用于描述生物体或者化合物的生物活性

• Mechanism (Abstract-DWPI Mechanism/MEC): 描述化合物或者生物体的生物机理.

• Use (Abstract-DWPI Use/USE): 包括该发明在不同技术领域的使用(应用). If there are no disclosed uses, this is stated.

• Advantage (Abstract-DWPI Advantage/ADV): 包括由发明人所陈述的发明优势.

• Tech Focus (Abstract-DWPI Tech Focus/FOC): 描述该发明包含的核心技术领域以外的技术。Technology Focus Abstract is used to group information concerning how the invention is carried out into the technology area(s).

• Drawing Description (Abstract-DWPI Drawing Desc/DRW): 记录中所包括的技术

图示的解释

Page 24: 利用Thomson Data Analyzer进行数据分析

Derwent Innovations Index

获取数据的来源

• 系统默认支持数据库

• Excel

• 自定义数据

分析工具: Thomson Data Analyzer

Page 25: 利用Thomson Data Analyzer进行数据分析

案例: 如何将外部规范数据导入TDA

Page 26: 利用Thomson Data Analyzer进行数据分析

点击右键并选择View Statistics可查看每项导入数据的统计值

Page 27: 利用Thomson Data Analyzer进行数据分析

创建数据子集合

Page 28: 利用Thomson Data Analyzer进行数据分析
Page 29: 利用Thomson Data Analyzer进行数据分析

提纲

• Thomson Data Analyzer概况

• 数据采集与数据导入

• 数据规范/数据结构化

• 数据分析

Page 30: 利用Thomson Data Analyzer进行数据分析

提纲

• 数据规范/数据结构化

为什么要规范数据:

• Alloy, alloys; “human-computer interaction” and “human computer interaction” ;单数/复数变化;拼写错误;美式/英式拼写;公司名称/机构的不同书写

格式的不同;

Page 31: 利用Thomson Data Analyzer进行数据分析

数据清理与规范

• 要得到准确的分析结果的前提是让数据的差异性 小,应尽量减少词汇的拼写差异、或者同义词等。清理数据的方法包括:

• List Cleanup- 机器辅助识别并聚类相似的术语;

• Thesauri- 按照规则识别并聚类类似的术语

• Combine/Remove Duplicate Records –合并/去除重复记录

• Groups— 在一个字段中标记类似的术语,同时可保留条目细节

Page 32: 利用Thomson Data Analyzer进行数据分析

数据清理之DWPI 自动清理

Page 33: 利用Thomson Data Analyzer进行数据分析

Basic Patent Number:1000

Family Member Number:4634

Page 34: 利用Thomson Data Analyzer进行数据分析
Page 35: 利用Thomson Data Analyzer进行数据分析

针对本课题需要清理的数据

• 专利权人

• 自然语词(标题、摘要、)

• 专利权国家、地区

• IPC、Manual Code

Page 36: 利用Thomson Data Analyzer进行数据分析

数据清理之: List Cleanup• TDA 可以将同义词/等同词等加以区分;

• 当使用List Cleanup工具时, 您在使用文件名后 为 .fuz 的文件对数据进行清理. 常用的模糊匹配文献包括:

• 机构(Affiliation )- 可用于公司/机构字段,忽略常用的机构标志词 (e.g. Corp, AG, KK, Ltd)

• 作者(Author )-用于作者字段;

• 发明人(Inventor )-用于发明人字段;

• 一般(General )-可用于所有的文本字段, e.g. cleaning NLP text fields

Page 37: 利用Thomson Data Analyzer进行数据分析

利用List Clean up清理数据

Page 38: 利用Thomson Data Analyzer进行数据分析
Page 39: 利用Thomson Data Analyzer进行数据分析

相同专利权人的合并 (光标拖动放在相应名称下即可)

Page 40: 利用Thomson Data Analyzer进行数据分析

将不应该归并的数据从组中去除(选中数据并采用右键)

Page 41: 利用Thomson Data Analyzer进行数据分析

暂时保存,今后继续清理(点击cleanup

Page 42: 利用Thomson Data Analyzer进行数据分析

恢复继续清理

Page 43: 利用Thomson Data Analyzer进行数据分析

将清理结果保存为叙词,用于今后数据清理

Page 44: 利用Thomson Data Analyzer进行数据分析

使用叙词帮助信息清理

Page 45: 利用Thomson Data Analyzer进行数据分析

数据清理之: Thesaurus-- 叙词表

• 您可以对一张数据列表利用叙词进行清理

• 您可以自己编辑叙词表

• 可以手工拖拽生成叙词表

• 当在Cleanup Confirm 对话框内点击 Save As Thesaurus 或者利用Groups创建叙词后 (Menu item Groups and Create Thesaurus using Groups ...) 再选择已存在的叙词文件 (*.the), 您就可

以将叙词表合并到一个已有的叙词表里

Page 46: 利用Thomson Data Analyzer进行数据分析
Page 47: 利用Thomson Data Analyzer进行数据分析
Page 48: 利用Thomson Data Analyzer进行数据分析

可以将左侧的条目拖拽到右侧的对应词条下Insert Major Item/Insert

Sub Iterm

Page 49: 利用Thomson Data Analyzer进行数据分析

可以测试并调整叙词

Page 50: 利用Thomson Data Analyzer进行数据分析

数据清理:叙词表(Thesauri)

叙词表可以应用到任何一个字段

其中包含将不同词汇替换为标准化短语的规则, 例如:

“CN” China

“China”, “Japan” & “India” Asia

“Int Bus Machines” IBM

“WWW” & “cyberspace” The Internet

叙词表可以应用到任何一个字段

其中包含将不同词汇替换为标准化短语的规则, 例如:

“CN” China

“China”, “Japan” & “India” Asia

“Int Bus Machines” IBM

“WWW” & “cyberspace” The Internet

50

分析工具: Thomson Data Analyzer

Page 51: 利用Thomson Data Analyzer进行数据分析

Thesauri in TDA• Thesauri for NLP text fields

• Convert American into British - translates common American English terms into British English

• Convert British into American - translates common British English terms into American English

• DWPI Abbreviations - expands commonly used abbreviations in DWPI into their full word. Best applied to an NLP field prior to cleaning

• Stopwords (DWPI) - marks commonly used DWPI abstract terms (e.g. NOVELTY), useful for NLP fields. Best applied to create a Group, and then use Create Field From Group (choosing unchecked items) to remove terms from the field.

• Stopwords (General) - marks commonly occurring non-technical terms, useful for NLP fields. Best applied to create a Group, and then use Create Field From Group (choosing unchecked items) to remove terms from the field.

Page 52: 利用Thomson Data Analyzer进行数据分析

• Thesauri for Organization Fields (e.g. assignee, affiliation)• AcadCorpGovIndiv - categorizes an organizational list (e.g. patent assignee)

into: (i) people's names; (ii) academic entities, e.g. Universities; (iii) government institutions; (iv) hospitals; and (v) corporate entities. This is best run to create Groups, and then the list can be quickly scanned to identify overlap which needs manual editing. Items which do not get grouped are most usually corporate entities.

• Thesauri for country fields

• Country - normalizes country names, and recognises some abbreviations (not 2-letter patent country codes, use PatentCountry.the for that purpose)

• PatentCountry - converts the 2-letter patent authority codes (e.g. CN) into full country names (e.g. China)

• Region - converts full country names (e.g. China) into continents (e.g. Asia); note, not for 2-letter patent authorities, use PatentCountry.the first

Page 53: 利用Thomson Data Analyzer进行数据分析

• Thesauri for patent classification fields

• DerwentClass - adds the definition text to the alphanumeric code

• DWPI Manual Codes (2007) - adds the definition text to the alphanumeric code. The definitions are as per the 2007 release of the manual codes.

• DWPI Manual Codes, 5 chars (2007) - also adds definition text, but also translates all codes into their nearest 5-character manual code in the hierarchy (e.g. X22-A01A1 would be X22-A at the 5-character level) to reduce the complexity of the field and give a 'higher' level view, but still with more detail than Derwent Classification.

• IPC4defs - adds the definition text to the alphanumeric for IPCs at the 4-digit level (e.g. A82B)

• IPC8 - converts IPC codes to Code plus Description to the GROUP level.

• IPC8 subclass defs - IPC8 subclass (4-digit) definitions.

• IPCFull - adds the definition text to the alphanumeric code for all IPC codes. Note, this operation will take many minutes to run, as there are a lot of definitions.

Page 54: 利用Thomson Data Analyzer进行数据分析

• Thesauri for year fields

• Derwentpatentdate - Can be used to recognize years within fields that contain more than just the 4-digit year information in Derwent fields e.g. yyyymmdd

• Year - Can be used to recognize years within fields that contain more than just the 4-digit year information e.g. yyyymmdd

Page 55: 利用Thomson Data Analyzer进行数据分析

数据清理之Group• 数据列表中的项目可以被标记到一个集合或者一个组之中. 分组功能对于减少共现矩阵的大小非常有帮助, 同时也可以用来将数据集合中的数据提取出来形成一个新的数据集合并对其加以定义.

Page 56: 利用Thomson Data Analyzer进行数据分析

形成Top30专利权人组成(选中并用右键)

Page 57: 利用Thomson Data Analyzer进行数据分析
Page 58: 利用Thomson Data Analyzer进行数据分析
Page 59: 利用Thomson Data Analyzer进行数据分析
Page 60: 利用Thomson Data Analyzer进行数据分析

提纲

• Thomson Data Analyzer概况

• 数据采集与数据导入

• 数据规范/数据结构化

• 数据分析

• 生成报告

• TDA的应用

Page 61: 利用Thomson Data Analyzer进行数据分析

数据分析

• List:一维分析

• 矩阵分析:二维分析

• Map: 好利用分过组的数据进行分析

• 预制的分析模块 :三维分析/分析报告

• List Comparation: 数据的比较

Page 62: 利用Thomson Data Analyzer进行数据分析

一维分析

Page 63: 利用Thomson Data Analyzer进行数据分析
Page 64: 利用Thomson Data Analyzer进行数据分析

• 如果在细节显示窗口中共现值高于或者低于期望的数值很多时,将会出现一个期望值显示箭头. 当箭头出现时,您

可以推断在此细节显示窗口中的共现值与期望值相差较多。箭头的数量 (one, two or three) 表示共现值与期望之差距的大小,三个箭头表示差距 大.如果没有箭头则表明这个数值与期望值没有太大偏差或者期望值无法确定. 绿色

向上的箭头表示共现值大于预期,反之红色向下箭头表示数值低于预期.

• Note that an item which has zero co-occurrence with the selection in a view is shown in a Detail Window only if it is much lower than expectation.

Page 65: 利用Thomson Data Analyzer进行数据分析

二维矩阵分析

Page 66: 利用Thomson Data Analyzer进行数据分析

• 矩阵分析的类型:

同现矩阵(Co-occurrence Matrix)寻找同时出现在两个矩阵参数中的记录。

自相关系数矩阵(Auto-Correlation Matrix)利用矩阵分析在相同的字段中,寻找关系密切的项目。如寻找合作密切的公司、发明人,自相关系数矩阵只适用于有多个数值的字段。

互相关系数矩阵(Cross-Correlation Matrix)利用矩阵分析在不同字段中,寻找关系密切的项目。如在相同领域研发相似的专利权人

主成分关系矩阵(Factor Matrix)

寻找经常共同出现在相同专利文献的项目,比如经常相伴出现的词(NLP聚成词簇。煮成份分析只适用于含有多者数值的字段,如主题字段等

Page 67: 利用Thomson Data Analyzer进行数据分析

同现矩阵

• A co-occurrence matrix shows the number of records in the dataset containing two given list items.

Page 68: 利用Thomson Data Analyzer进行数据分析

同现矩阵分析

Page 69: 利用Thomson Data Analyzer进行数据分析
Page 70: 利用Thomson Data Analyzer进行数据分析

Auto-Correlation Matrix• 自相关矩阵可以显示某一数据列表中的相互关系。例如,一个发明人的自相关矩阵可以显示某一个团体中成员的高度相关关系。

• Correlation function is enabled when a correlation matrix is chosen. Choose from Pearson’s r (the default), Cosine, or Max Proportional.

• Note: For Auto-Correlation Matrix, you should only use fields that have multiple values in most of the records. For example, Inventors, Assignees, Authors or Descriptors are good choices. Date of Publication is not a good choice, since there is only one date of publication for each record.

Page 71: 利用Thomson Data Analyzer进行数据分析
Page 72: 利用Thomson Data Analyzer进行数据分析
Page 73: 利用Thomson Data Analyzer进行数据分析

Cross-Correlation Matrix• 互相关系数矩阵显示某一数据表中各项目基于另外一张数据表的相关.例如,作者的基于叙词的互相关系数矩阵可以显示有哪些团体在写作相同的作品. 再如:一个基于叙词的机构互相关系数矩阵可以显示那些在写作相同作品的机构.

• 创建互相关系数矩阵需选择两个字段,第一个字段是显示为矩阵中的行与列- 通常为一个字段或者自己

定义的一小组数据,选择的第二个字段是分析行与列中项目相关关系的基础.

Page 74: 利用Thomson Data Analyzer进行数据分析
Page 75: 利用Thomson Data Analyzer进行数据分析
Page 76: 利用Thomson Data Analyzer进行数据分析

Factor Matrix (主成分关系分析)

• The Factor Matrix View shows the items included in your analysislisted down the left column, and the factors across the columns. Two rows near the top of the matrix show the variance accounted for by each factor and the cumulative variance.

• The cells of the matrix contain the results of the analysis. Generally, in looking for “clusters” of list items, you should sort each column both ways (increasing and decreasing) and look for relatively large numbers (e.g., greater than 0.5 or less than -0.5) that are “close together”. Within a column, numbers that are close together may indicate list items that are related in the dataset.

Page 77: 利用Thomson Data Analyzer进行数据分析
Page 78: 利用Thomson Data Analyzer进行数据分析
Page 79: 利用Thomson Data Analyzer进行数据分析

List Comparation: 比较不同群组的差异

Page 80: 利用Thomson Data Analyzer进行数据分析
Page 81: 利用Thomson Data Analyzer进行数据分析

总体发展趋势宏观分析

• 地区覆盖范围 (国家、地区)

• 创新性活动进展 – 时间序列分析 (优先权年, 近15年)

• 专利权人趋势 (专利权人名称)

• 排名靠前的专利申请者的地区分布 (Top30)

• 排名靠前的专利申请者其专利申请活动的时间分布( 近15年)

• 技术发展趋势(时间分布、地区分布、专利权人分布)(Manual Code、NLP words、

• 热点技术(时间分布、地区分布、专利权人分布)

• 高影响力专利

Page 82: 利用Thomson Data Analyzer进行数据分析

地区覆盖 ( 专利申请国一维分析)

Page 83: 利用Thomson Data Analyzer进行数据分析

可以右键选择数据拷贝并做图

Page 84: 利用Thomson Data Analyzer进行数据分析

时间序列分析 (优先权年)(共现矩阵)

Page 85: 利用Thomson Data Analyzer进行数据分析

时间序列分析(每年该领域专利量) (优先权)

Page 86: 利用Thomson Data Analyzer进行数据分析

专利权人趋势 (专利权人名称)(一维分析)

Page 87: 利用Thomson Data Analyzer进行数据分析

排名靠前的专利申请者的申请地区分布 (Top30)

Page 88: 利用Thomson Data Analyzer进行数据分析

排名靠前专利申请者专利申请活动的时间分布

Page 89: 利用Thomson Data Analyzer进行数据分析

技术发展趋势(时间分布)

Page 90: 利用Thomson Data Analyzer进行数据分析

技术发展趋势(地区分布)

Page 91: 利用Thomson Data Analyzer进行数据分析

技术发展趋势 (专利权人分布)

Page 92: 利用Thomson Data Analyzer进行数据分析

热点技术 (时间分布)

Page 93: 利用Thomson Data Analyzer进行数据分析

竞争环境分析

• 按规模和重点年份分布的竞争对手的专利记录

• 按地区分布的竞争对手的专利记录

• 外国公司和中国公司拥有的专利

• 竞争对手的技术

• 在中国的专利

• 在欧洲的专利诉讼

• 共同申请和发明人转让专利权的相关活动

• 竞争对手研发团队分析

• 从审查员引证中发现的竞争对手的创新性研发活动

Page 94: 利用Thomson Data Analyzer进行数据分析

按规模和重点年份分布的竞争对手的专利记

Page 95: 利用Thomson Data Analyzer进行数据分析

外国公司和中国公司拥有的专利

Page 96: 利用Thomson Data Analyzer进行数据分析

国际专利权人在中国申请的专利记录

Page 97: 利用Thomson Data Analyzer进行数据分析

主要专利权人合作关系

Page 98: 利用Thomson Data Analyzer进行数据分析

各专利权人主要研发人员

Page 99: 利用Thomson Data Analyzer进行数据分析

中国专利权人技术相似性

Page 100: 利用Thomson Data Analyzer进行数据分析

• Map类型:

自相关系数地图(Auto-Correlation Map)

在相同的字段中,寻找关系密切的项目。如寻找合作密

切的公司、发明人、国家。

互相关系数地图(Cross-Correlation Map)

在不同字段中,寻找关系密切的项目。如寻找哪些公司

在相同的研发领域关系密切。

主成分地图 (Factor Map)

寻找经常共同出现在相同专利文献的项目,比如经常相伴出现的词(NLP);经常相伴出现的发明人;IPC;Manual Code,聚成词簇。

Page 101: 利用Thomson Data Analyzer进行数据分析

Auto-Correlation Maps• 自相关关系图显示一张数据表中各个条目的相互关系。例如:一个作者自相关关系图可以显示在一起写作的团队成员。一个叙词的自相关关系图将可以因在同一记录中被使用显示它们之间的高度相关性。

• 注意: 对于自相关地图而言, 您应该选择那些在绝大多数记录中都含有多个数据的字段.例如, 作者或者叙词等都是好的选择. 出版日期则不应选择,因为每条记录只有一个出版日期.

Page 102: 利用Thomson Data Analyzer进行数据分析
Page 103: 利用Thomson Data Analyzer进行数据分析
Page 104: 利用Thomson Data Analyzer进行数据分析

Cross-Correlation Maps• 互相关系数矩阵显示某一数据表中各项目基于另外一张数据表的相关.例如,作者的基于叙词的互相关系数矩阵可以显示有哪些团体在写作相同的作品. 再如:一个基于叙词的机构互相关系数矩阵可以显示那些在写作相同作品的机构.

• 创建互相关系数矩阵需选择两个字段,第一个字段是显示为矩阵中的行与列- 通常为一个字段或者自己定义的一小组数据,选择的第二个字段是分析行与列中项目相关关系的基础.

• .

Page 105: 利用Thomson Data Analyzer进行数据分析

Cross-Correlation Maps

• 注意: 在互相关地图中的约束条件比主成分地图和自相关地图更少限制. 因此互相关地图会呈现一些”一次性”的相关关系. 例如: 如果 “A” 和作者r “B”并非合作者, 但都与作者 “C”合作, 互相关地图则(Field1 = a group of Authors that includes “A” and “B” and Field2 = all Authors) 会揭示作者“A” 和“B” 有关联, 尽管作者 “C”不会在地图上显示出来.因此,在互相关地图中您应该留心这点并做深入的调查. 请注意 “低相似” 相关关系会是“可能的” 相关关系-在某些条件下可能显示的是间接相关.

Page 106: 利用Thomson Data Analyzer进行数据分析
Page 107: 利用Thomson Data Analyzer进行数据分析
Page 108: 利用Thomson Data Analyzer进行数据分析
Page 109: 利用Thomson Data Analyzer进行数据分析

Factor Map• Factor Map以图形的方式表示主成分分析的结果(Principal Components Analysis (PCA)). The PCA 找出数据表中经常在数据集中共同出现的条目.关系图中每个节点代表一个术语的簇。 节点之间的线条表示两个术语簇之间的相似度的度量。 线条的粗细与模式代表相似的程度-其数值0 and 1.

Page 110: 利用Thomson Data Analyzer进行数据分析

Factor Map• 注意: 不要在您的分析组别中加入仅出现少数几次的条目.• A general rule of thumb is to include only list items that occur in ten (10) or

more records. Including list items that occur less frequently may cause the analysis to fail.

• 注意: 不要在您的分析数据组中包含在绝大多数记录中都出现的

条目

• 注意: 确保在分析中包含了足够的条目,但不要太多. 应该依据您的数据集合中的数据多少,您应该包含不少于15-20个条目,而不

能多于数百条

Page 111: 利用Thomson Data Analyzer进行数据分析
Page 112: 利用Thomson Data Analyzer进行数据分析
Page 113: 利用Thomson Data Analyzer进行数据分析
Page 114: 利用Thomson Data Analyzer进行数据分析

主要专利权人合作关系

Page 115: 利用Thomson Data Analyzer进行数据分析

提纲

• Thomson Data Analyzer概况

• 数据采集与数据导入

• 数据规范/数据结构化

• 数据分析

• 生成报告

• 分析应用案例

Page 116: 利用Thomson Data Analyzer进行数据分析
Page 117: 利用Thomson Data Analyzer进行数据分析
Page 118: 利用Thomson Data Analyzer进行数据分析

Clean:Combine Author Networks(发明人聚组)Clean:DWPI Clean Up ( DWPI Only)

Export: Fro Aureka.vpm(生成可以导入Aureka的数据文件,记录之间以***TDA***)Export: Groups to Excel(将“组”导出到Excel)Export: Groups to Text (将“组”导出到Text)Export: Records to Excel (DWPI Only,将记录中预选好的字段导入Excel)Export: Records to Word (DWPI Only,将记录中预选好的字段导入Word)Export: Records to Word,将记录导出到Word)

Report: Basic Report (DWPI Only,专利数位居前十位的专利权属人报告)Report: Company Comparison(2个或5个公司间的相互比较报告,相互间比较项目可以选择

)Report: Company Report(报告:公司/发明人/年代/国家/技术,分析数据只来自一个机构)Report: IPC based Analysis ( DWPI Only,前10位专利权属人相关IPC相对Basic Patent Year的分析报告)Report: Make Pivot Chart in Excel(生成二维矩阵分析相应的数据透视表)Report: Plot List in Excel(将List中选定的数据复制到表格中,并自动生成柱形图)Report: Plot Matrix In Excel(将选定的二维矩阵分析复制到表格中,并自动生成三维图、柱形

图、折线图)Report: Sum of Matrix Columns (将选定的二维矩阵分析表格中分析元素的列数与行数进行统

计)Report: Technology Report(以技术/机构/发明人为参照点考量新出现的/消失的/量 大的/独特

的技术分布报告)Report: Term By All Years(所有年份出现的词汇分析报告)Report: Term by First Year(词汇第一次出现的年份分析报告)

Page 119: 利用Thomson Data Analyzer进行数据分析

Utility:And Search(利用词语检索自动添加对应的组Group)Utility:Close All Views(关闭TDA中除了Summary以外所有的窗口)Utility: Combine Groups(将选定的组合并)Utility: Make Multi-item Thesaurus From Matrix(从二维矩阵分析生成叙词表Thesaurus,行中

出现的词位上位词,列中出现的词位下位词)Utility: Make Unique(比较两个字段,找出独特的地方)

汇总:

Clean:2种Export: 6种Report: 15种Utility: 5种

快捷键:9个

Page 120: 利用Thomson Data Analyzer进行数据分析

Report: Company Comparison(2个或5个公司间的相互比较报告,比较项目可以选择)

Page 121: 利用Thomson Data Analyzer进行数据分析

生成技术报告

Page 122: 利用Thomson Data Analyzer进行数据分析
Page 123: 利用Thomson Data Analyzer进行数据分析

Tech Report

Page 124: 利用Thomson Data Analyzer进行数据分析

将数据导出以用于Aureka

Page 125: 利用Thomson Data Analyzer进行数据分析

提纲

• Thomson Data Analyzer概况

• 数据采集与数据导入

• 数据规范/数据结构化

• 数据分析

• 生成报告

• 分析应用案例

Page 126: 利用Thomson Data Analyzer进行数据分析

分析工具的使用

Question Suitable Tool

What are the top-20 items? ListWhat is the relative growth rate of the top-5 companies?

Co-occurrence matrix

Which authors/inventors work together?

Auto-correlation map

Which companies have collaborated? Co-occurrence matrixWhich companies are working on similar technologies?

Cross-correlation map

What 'clusters' of technology exist? Factor mapWhat are the 'hot' areas of technology?Use Factor map to create Groups, and

then Co-occurrence matrix using the GroupsWhat is unique to a particular company?

Use Create Subset to isolate the company's portfolio, and then use List Comparison across the two datasets

What is unique to literature vs patents?Use Incremental Import to obtain NLP fields (e.g. Phrases) in both sets, and then use List Comparison across the two datasets. Use Factor map on the unique terms.

Page 127: 利用Thomson Data Analyzer进行数据分析

TDA应用

• 学校之间对比

• 评估您的科研实力

• 进入新研究领域

• 深入研究竞争对手/同行

Page 128: 利用Thomson Data Analyzer进行数据分析

学校之间对比Use TDA to help comparison

Page 129: 利用Thomson Data Analyzer进行数据分析

学科产出对比

TDA Report

Page 130: 利用Thomson Data Analyzer进行数据分析

国际合作对比

TDA Report

Page 131: 利用Thomson Data Analyzer进行数据分析

评估您的科研实力Use TDA to help identify and build a competitive advantage

Page 132: 利用Thomson Data Analyzer进行数据分析

- 选择某个机构- 查看该机构的具体信息

- 识别相关领域的优势和劣势

我们的优势和劣势?

Page 133: 利用Thomson Data Analyzer进行数据分析

-了解专利研发是否活跃- 识别新进入者和退出者

行业的领导者?

Page 134: 利用Thomson Data Analyzer进行数据分析

领域中的新动向?

-选择 近时间段

-细节显示其他字段的趋势,例如技术的发展或是衰退,机构文献/专利申请增加或是减少等

Page 135: 利用Thomson Data Analyzer进行数据分析

进入新研究领域Use TDA to help with Go/No-Go and “Build Or Buy” questions

when looking to diversify

Page 136: 利用Thomson Data Analyzer进行数据分析

- 技术分类(MC)VS 公司名称- 识别各个公司的技术优势和劣势

识别竞争对手重点领域?

Page 137: 利用Thomson Data Analyzer进行数据分析

Distribution of Records by Organization Activity

<2 documents2-5 documents6-20 documents21-100 documents101+ documents

This pie chart shows how the records in the dataset are shared amongst organizations, and their relative strength within the

area.

The organizations are categorized according to the number of records they hold within the dataset.

Organizations in the highest category hold a high number of records, those in the lowest hold only one record.

The size of each segment shows the number of records, not the number of organizations.

The larger the high-value segments, the more the dataset is dominated by fewer large-players in the area (potentially

indicating a mature technology).

If dominated by lower-value segments, then this shows a large number of smaller players in the area (potentially indicating a

new dynamic technology area).- 技术是否主要为大公司持有- 是否有进入的空间和机会?- 自行研发还是购买技术?

进入该市场的难易程度?

Page 138: 利用Thomson Data Analyzer进行数据分析

- 谁拥有类似的技术- 识别谁拥有新用途的技术- 避免涉及高度集中的领域

潜在的目标是谁?

Page 139: 利用Thomson Data Analyzer进行数据分析

深入了解竞争对手/同行Use TDA to help with company due-diligence

Page 140: 利用Thomson Data Analyzer进行数据分析

竞争对手独特的技术是什么?

- 识别与其他公司相比而言独特的技术领域,例如关键词,权

利要求中的技术词汇,分类等等

Page 141: 利用Thomson Data Analyzer进行数据分析

- 某公司中研发人员的合作情况- 识别核心的研发人员,或是某产品线相关的研发团队

- 识别关键人才

识别研发人员的合作情况?

Page 142: 利用Thomson Data Analyzer进行数据分析

-公司 vs 公司

-识别合作情况

识别竞争对手与外界的合作状况?

Page 143: 利用Thomson Data Analyzer进行数据分析

案例

Page 144: 利用Thomson Data Analyzer进行数据分析

明确问题

• 哪些作者发文较多?集中在哪些领域?作者课题研究发展的变化趋势?

• 哪些作者在哪些研究方向上与哪些机构(国内外)合作较多?哪些是研究有关联但是没有合作的(竞争)?哪些研究领域是合作 多的领域?

• 近3年的研究关注点是什么?文献关键词的变化趋势如何?文

献关键词、主题词和题目涉及的词的汇聚集合中,高频词有哪些?

• 从参考文献中分析该机构的文献保障情况。常引用的文献包括哪些?从参考文献上分析某领域研究上集中的作者群有哪些?

Page 145: 利用Thomson Data Analyzer进行数据分析

了解数据概况

Page 146: 利用Thomson Data Analyzer进行数据分析

数据清理

• 机构清理

• 作者清理

Page 147: 利用Thomson Data Analyzer进行数据分析

哪些作者发文较多?集中在哪些领域?作者课题研究发展的变化趋势? Tech Report

Page 148: 利用Thomson Data Analyzer进行数据分析
Page 149: 利用Thomson Data Analyzer进行数据分析

近3年的研究关注点是什么? Tech Report

Page 150: 利用Thomson Data Analyzer进行数据分析

高频词

Page 151: 利用Thomson Data Analyzer进行数据分析

常引用的参考文献

Page 152: 利用Thomson Data Analyzer进行数据分析

通过参考文献了解高影响力作者

Page 153: 利用Thomson Data Analyzer进行数据分析

机构研究关联性

Page 154: 利用Thomson Data Analyzer进行数据分析

情报是经过分析的信息,是可被传递的帮助特定的领域解决问题的知识 ——传递性、效用性、知识性

信息采集

• 专利

• 期刊

•会议

信息分析

• 人工分析

• 计算机分析

针对某一项具体的领域、具体的问题, 产生可以指导行为的情报

信息源

战略规划

竞争情报

公司购并 授权许可

授权许可专利战略

科学、技术发展趋势

投资可行性分析

发现机会所在

排除虚假机会