rutgers part1 -...

20
1 April 11, 2007 Rutgers !"!!#"$#%&&’!&(!))!&’ * " ##+ , # ## " * $- .$-/ 0 * 12 " 3"3 124 $- 3 5$* 4 " ##+ , # ## " * $- .$-/ 0 * 12 " 3"3 124 $- 3 5$* 4 * 6 5 6 * " 7# 2 ## " " ,# 88 # 8 12

Upload: truongdiep

Post on 02-Jul-2019

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: rutgers part1 - DIMACSdimacs.rutgers.edu/Workshops/NCBI2007/slides/rutgers...-mirror.net/biomirror/genbank el as 158 F b ru y 2 07 87 x 106 Records 57 x 10 Nucl eotid s 263 Gb (non-WGS)

1

������������

����������������� �����������������������

����������� ����� ���

����� ��� ��������� ��������������

April 11, 2007 Rutgers

���� ���!��"�!���!��# ��" �������� $���� �����# %&&' ������!&(!))!&'

������������

*�����

� �"����� �

� �� �����#�#�+

� ,�������#� ���#���#�����"���

� *��������$-����.��$-/����0��

� *��1���2��������������"���

3"���3

� 1���2��4����������

� ��������������

� $-���������������3 5�$*

� ������������4����

� �"����� �

� �� �����#�#�+

� ,�������#� ���#���#�����"���

� *��������$-����.��$-/����0��

� *��1���2��������������"���

3"���3

� 1���2��4����������

� ��������������

� $-���������������3 5�$*

� ������������4����

������������

*������������������������6����

5�����6

���

�����

����������

������������

*������������������� �����������������������

� ���������"������������������������

� 7#�������������������2���������

� ��������#���#�����"����"������������������

����

� ,��#������������8�����8���������#����������

����8����������������������1���2������

Page 2: rutgers part1 - DIMACSdimacs.rutgers.edu/Workshops/NCBI2007/slides/rutgers...-mirror.net/biomirror/genbank el as 158 F b ru y 2 07 87 x 106 Records 57 x 10 Nucl eotid s 263 Gb (non-WGS)

2

������������

� ��9"�*�������

Users per day

300,000

200,000

100,000

400,000

1998 1999 2000 2001 2002 2003 2004

500,000

600,000

2005

Christmas and New Year’s Day

��������������������������������

(.com, .net, (.com, .net, .org,.org,..govgov, .us), .us)

40%40%

Japan 6%Italy 4%

Canada 3%Germany 3%

United Kingdom3%

Netherlands 2%Spain 2%

Brazil 2%Sweden 1%Switzerland 1%Belgium1%

OtherOther14%14%

��������������������������������

(.com, .net, (.com, .net, .org,.org,..govgov, .us), .us)

40%40%

Japan 6%Italy 4%

Canada 3%Germany 3%

United Kingdom3%

Netherlands 2%Spain 2%

Brazil 2%Sweden 1%Switzerland 1%Belgium1%

OtherOther14%14%

������������

� ��9"�:����; :�������7��8�<�������%&&'

������������

� ��9"�:����; 6�������7��8�<�������%&&'

������������

6������3 ����������������

all[filter]

Page 3: rutgers part1 - DIMACSdimacs.rutgers.edu/Workshops/NCBI2007/slides/rutgers...-mirror.net/biomirror/genbank el as 158 F b ru y 2 07 87 x 106 Records 57 x 10 Nucl eotid s 263 Gb (non-WGS)

3

������������

&) %) %&&'&) %) %&&'

= =) &'= =) &'

������������� ������������

����������������

� ��������������

� �� ���������

� �����������������������������

� �������������� !�"#�!����

� ��$���$���������� ��������������������

� �����������������������������%#��&'

� ���������(��)!���*!�(�"#�!�+����!�#��&������!�

"�����!�����$��������

� ��������������

� �� ���������

� �����������������������������

� �������������� !�"#�!����

� ��$���$���������� ��������������������

� �����������������������������%#��&'

� ���������(��)!���*!�(�"#�!�+����!�#��&������!�

"�����!�����$��������

������������

�����

ftp://ftp.ncbi.nih.gov/genbank/ftp://genbank.sdsc.edu/pub

ftp://bio-mirror.net/biomirror/genbank

Release 158 February 200787 x 106 Records

157 x 109 Nucleotides

263 Gb (non-WGS) 1115 files .���39�$/

• full release every two months• incremental and cumulative updates daily• available only via ftp• release notes: gbrel.txt

����� ������������

Aug-97 Aug-98 Aug-99 Aug-00 Aug-01 Aug-02 Aug-03 Aug-04 Aug-05 Aug-060

20

40

60

80

100

120

140

160

Bas

es

(bill

ions

)

*�����+�������� ���

Non-WGS: 69.0 billion basesNon-WGS: 69.0 billion bases

WGS: 81.6 billion basesWGS: 81.6 billion bases

Release 157Release 157

Doubling time 12-14 months

Page 4: rutgers part1 - DIMACSdimacs.rutgers.edu/Workshops/NCBI2007/slides/rutgers...-mirror.net/biomirror/genbank el as 158 F b ru y 2 07 87 x 106 Records 57 x 10 Nucl eotid s 263 Gb (non-WGS)

4

������������

,������������ -

� ������������� �-��������"���

� �����#�� ��������

� 6���������

� ������#������"���������������#�+�.��"0���#/

� ��������

� �� ����7���

� 7�������"���������.������������������/

� �������"���������.1$*8��$$8�$*$/

� �������������.���������/

� *��������"������������"���

� �� ���

� 7���7���"������<�����.77 </�

� 1���������������� �������5�"��������.1� 5/�7���"��

� ������������� �-��������"���

� �����#�� ��������

� 6���������

� ������#������"���������������#�+�.��"0���#/

� ��������

� �� ����7���

� 7�������"���������.������������������/

� �������"���������.1$*8��$$8�$*$/

� �������������.���������/

� *��������"������������"���

� �� ���

� 7���7���"������<�����.77 </�

� 1���������������� �������5�"��������.1� 5/�7���"��

������������

�� ����7�#������

“Organismal”(Traditional)

PRI (28) PrimateROD (15) RodentPLN (20) Plant and FungalBCT (18) Bacterial/ArchealINV (7) InvertebrateVRT (7) Other VertebrateVRL (4) ViralMAM (2) MammalianPHG (1) PhageSYN (1) SyntheticENV (4) Envir. samplesUNA (1) Unannotated

“Functional”(Bulk)

EST (570) Expressed Sequence TagGSS (197) Genome Survey SequenceHTG (88) High Throughput GenomicPAT (27) PatentSTS (9) Sequence Tagged SiteCON (1) Contigs, virtual

• Organized by taxonomy (sort of)• Direct submissions (Sequin/Bankit)• Accurate (~1 error per 10,000 bp)• Well characterized

• Organized by sequence type• Batch submissions (ftp/email) • Less accurate• Poorly characterized

������������

�� ���������������. ���/�7�#������

� � �� ��� �

� � �

� � �

� � �

� 14������$-����*��14������$-����*��14������$-����*��14������$-����*��

� )�������������������7��

� �����$��#��$-��������$��#��$-��������$��#��$-��������$��#��$-���

� )�������������������7��

� 6����*����������������6����*����������������6����*����������������6����*����������������

� ����������-���������������

�����

� $-����*�����$��$-����*�����$��$-����*�����$��$-����*�����$��

� ,�3"������������������

9���������$������9���������$������9���������$������9���������$������

������������

1$*�7�#�������1$*�7�#�������1$*�7�#�������1$*�7�#�������11114������4������4������4������$$$$-����-����-����-����****������������

RNA gene products

��������������� ��

80-100,000 uniquecDNA clones in library

- isolate unique clones - sequence once from

each end

make cDNA library

5’

3’

>IMAGE:275615 3', mRNA sequenceNNTCAAGTTTTATGATTTATTTAACTTGTGGAACAAAAATAAACCAGATTAACCACAACCATGCCTTATTATCAAATGTATAAGANGTAAATATGAATCTTATATGACAAAATGTTTCATTCATTATAACAAATTTAATAATCCTGTCAATNATATTTCTAAATTTTCCCCCAAATTCTAAGCAGAGTATGTAAATTGGAAGTTCTTATGCACGCTTAACTATCTTAACAAGCTTTGAGTGCAAGAGATTGANGAGTTCAAATCTGACCAAGGTTGATGTTGGATAAGAGAATTCTCTGCTCCCCACCTCTANGTTGCCAGCCCTC

>IMAGE:275615 5' mRNA sequenceGACAGCATTCGGGCCGAGATGTCTCGCTCCGTGGCCTTAGCTGTGCTCGCGCTACTCTCTCTTTCTGGTGGAGGTATCCAGCGTACTCCAAAGATTCAGGTTTACTCACGTCATCCAGCAGAGAATGGAAAGTCAATTCCTGAATTGCTATGTGTCTGGGTTTCATCCATCCGACATTGAAGTTGACTTACTGAAGAATGGAGAGAATTGAAAAAGTGGAGCATTCAGACTTGTCTTTCAGCAAGGACTGGTCTTTCTATCTCTTGTACTACTGAATTCACCCCCACTGAAAAAGATGAGTATGCCTGCCGTGTTGAACCATGTNGACTTTGTCACAGNCAAGTTNAGTTTAAGTGGGNATCGAGACATGTAAGGCAGGCATCATGGGAGGTTTTGAAGNATGCCGCNTTGGATTGGGATGAATTCCAAATTTCTGGTTTGCTTGNTTTTTTAATATTGGATATGCTTTTG

Page 5: rutgers part1 - DIMACSdimacs.rutgers.edu/Workshops/NCBI2007/slides/rutgers...-mirror.net/biomirror/genbank el as 158 F b ru y 2 07 87 x 106 Records 57 x 10 Nucl eotid s 263 Gb (non-WGS)

5

������������

�� ���� ����$-�����1$*

�������������.��������������.�

������������

�$$8�6*�8�9�$

����

Whole BAC insert (or genome)

�������������-���

�$$���#������������������#

7������-����.6*����#�����/

����"��+��������������������"����.+������0���/

������������

/������������������.

> ���������������������

> ���������-�����.,����=/���#����������

�������������� ������#������

> ���������������������

> ���������-�����.,����=/���#����������

�������������� ������#������

������������

,�������������?����@���7��"��#����?,�������@

���0 ���$0��1����

Page 6: rutgers part1 - DIMACSdimacs.rutgers.edu/Workshops/NCBI2007/slides/rutgers...-mirror.net/biomirror/genbank el as 158 F b ru y 2 07 87 x 106 Records 57 x 10 Nucl eotid s 263 Gb (non-WGS)

6

������������

9���������$�������,��0���

� ABC����0���� �������.=%&/

� 1�#�����������-�����.)(/

� �������.B/

� 1���������.)(&/8�����������

� �����8����8�����8�7���.%/8�������28�6�����

� ,�������� .%/

� 6���"8��������8������������.=/8�$���+���

� �������.%/

� D�����.B/8������������ .%/

� ����.%/

� ABC����0���� �������.=%&/

� 1�#�����������-�����.)(/

� �������.B/

� 1���������.)(&/8�����������

� �����8����8�����8�7���.%/8�������28�6�����

� ,�������� .%/

� 6���"8��������8������������.=/8�$���+���

� �������.%/

� D�����.B/8������������ .%/

� ����.%/

������������

9���������$�������.9�$/�,��0���

wgs master[properties]

ftp://ftp.ncbi.nih.gov/genbank/wgs/

������������

*�����

� �"����� �

� �� �����#�#�+

� ,�������#� ���#���#�����"���

� *��������$-����.��$-/����0��

� *��1���2��������������"���

3"���3

� 1���2��4����������

� ��������������

� $-���������������3 5�$*

� ������������4����

� �"����� �

� �� �����#�#�+

� ,�������#� ���#���#�����"���

� *��������$-����.��$-/����0��

� *��1���2��������������"���

3"���3

� 1���2��4����������

� ��������������

� $-���������������3 5�$*

� ������������4����

������������

7��#���# 7���"���

� � �� �

� ���� �� ��� ���� � �� � �

���� ���

� ��� � � �� �

� !����! "�"�#� ��

$�%�

� "�����& ' $( %)��%* ������

�� �� �� � �

� � �

� � �

� � �

+� , � & � +$' - ���

,' . . � � +� � . � $

ATT GA

ATT

C

GA

C

GA

C

C

CATT

TAACT

� "�����

%)' ��,

��$-

Page 7: rutgers part1 - DIMACSdimacs.rutgers.edu/Workshops/NCBI2007/slides/rutgers...-mirror.net/biomirror/genbank el as 158 F b ru y 2 07 87 x 106 Records 57 x 10 Nucl eotid s 263 Gb (non-WGS)

7

������������

9�������������$-����E

1���2����������-����

�����?��������@���7������?����@

������������

9�������������$-����E1���2����������-����

�����?��������@���7������?����@

������������

�����?��������@���7������?����@���7����������?����@

=F%'�"�

()C&�"�

=F%'�"�

%=%=�"�

%A)�"�

�����?��������@���7������?����@���7����������?����@

������������

�������������

����������������

�������

> ���3��������G�"������������#

>������������������������-���������������

"������

>��������8����"���������������

Page 8: rutgers part1 - DIMACSdimacs.rutgers.edu/Workshops/NCBI2007/slides/rutgers...-mirror.net/biomirror/genbank el as 158 F b ru y 2 07 87 x 106 Records 57 x 10 Nucl eotid s 263 Gb (non-WGS)

8

������������

�������������

����������������

�������

� ���������������

%#�0234567'

� ����

� ��������� � ����

�����������������������

%����� �8�#�02345678�#,0'

� �����

� ����� ���

������������������

%#90234567:;<'

���������������

%#90234567:;<'

%=90234567:;<'

%=�0234567:;<'

������������

������$-��������$-

�������������������������������� $-����*��$-����*��$-����*��$-����*��

NM_123456789 ����

NP_123456789 ������8��������HNR_123456 ���3����������XM_123456 ������������XP_123456 ��������������XR_123456 �����������3����������ZP_12345678 ��������������IH

NC_123456 ������8�!�!8�����������NG_123455 ������8���������������

NT_123456 ������8� ������"��NW_123456 ������8�9�$�����"��NZ_ABCD12345678 ������, 9�$����������

������������

Genomic DNAGenomic DNA((NCNC,, NTNT,, NWNW))

Model mRNAModel mRNA (XM)(XM)(XR)(XR)

Curated mRNACurated mRNA (NM)(NM)(NR)(NR)

Model protein Model protein (XP)(XP)

�����������,�����

Curated ProteinCurated Protein (NP)(NP)

Scanning....

GenbankSequences

RefSeq

������������

���������H�������

������������#��7����������

���������������

5����������

�����������#�������)�����������#�������%�����������#�������=

Page 9: rutgers part1 - DIMACSdimacs.rutgers.edu/Workshops/NCBI2007/slides/rutgers...-mirror.net/biomirror/genbank el as 158 F b ru y 2 07 87 x 106 Records 57 x 10 Nucl eotid s 263 Gb (non-WGS)

9

������������

*�����

� �"����� �

� �� �����#�#�+

� ,�������#� ���#���#�����"���

� *��������$-����.��$-/����0��

� *��1���2��������������"���

3"���3

� 1���2��4����������

� ��������������

� $-���������������3 5�$*

� ������������4����

� �"����� �

� �� �����#�#�+

� ,�������#� ���#���#�����"���

� *��������$-����.��$-/����0��

� *��1���2��������������"���

3"���3

� 1���2��4����������

� ��������������

� $-���������������3 5�$*

� ������������4����

������������

���2

������������

GENSAT

*��1���2�$����

Entrez

Nucleotide

PubMed

Protein

StructureDomains 3D Domains

Taxonomy

Journals

PMC

OMIM

Books

PopSet

SNP

UniGeneUniSTS

Genome

Gene

GEO

MeSH

CancerChromosomes

Homologene

PubChem

Probe

������������

1���2�7���"���

� �������������7���"������������������2��"�����������.*�4������7���"��/.*�4������7���"��/.*�4������7���"��/.*�4������7���"��/!

� 1�����������������������:�7!� ��J���-����������������K ��������������������

� 1����������������4��"������������!� ?������@8�?����@8�?��������@8���������������

� 1���������������#����7�������$������!� �������������������������������.7��$��/

� 1������������������������������������������������������ ���"������������������:�7��������������������"���!

Page 10: rutgers part1 - DIMACSdimacs.rutgers.edu/Workshops/NCBI2007/slides/rutgers...-mirror.net/biomirror/genbank el as 158 F b ru y 2 07 87 x 106 Records 57 x 10 Nucl eotid s 263 Gb (non-WGS)

10

������������

1���2�5����

Links

������������

��L�+�����"$�,

������������

1���2�7���"���

� :���� ������ ���1$*�8������

� �"$�, $��������������,������������

M�������

� 77 ����#��7������7���"��

���������������.N�� ����ON��/

��������������.,���8�$���*8�7/

� :���� ������ ���1$*�8������

� �"$�, $��������������,������������

M�������

� 77 ����#��7������7���"��

���������������.N�� ����ON��/

��������������.,���8�$���*8�7/

������������

Gene-oriented clusters of expressed sequences

> ����������������������������� ����

> 1������������������������-����

> ��������"�����������

> �������������������������������������������

> :�����������������#��������������������������

������

:����

���-����

Page 11: rutgers part1 - DIMACSdimacs.rutgers.edu/Workshops/NCBI2007/slides/rutgers...-mirror.net/biomirror/genbank el as 158 F b ru y 2 07 87 x 106 Records 57 x 10 Nucl eotid s 263 Gb (non-WGS)

11

������������

�����������1$*�

mRNA query

5’ EST hits

3’ EST hits

������������

:��������������

������������

:��������������

$���� :���� 1�����

������������

:���� 6��"�����)F(����.��+����P%&)/

Page 12: rutgers part1 - DIMACSdimacs.rutgers.edu/Workshops/NCBI2007/slides/rutgers...-mirror.net/biomirror/genbank el as 158 F b ru y 2 07 87 x 106 Records 57 x 10 Nucl eotid s 263 Gb (non-WGS)

12

������������

:���� ������6�!ACAFB&5����8�������3������#�.5�,1/ �

�����������

:���� ������6�!ACAFB&

������������

:���� ������6�!FC=C)��4�������

������������

:���� ������6�!FC=C)��4�������

Page 13: rutgers part1 - DIMACSdimacs.rutgers.edu/Workshops/NCBI2007/slides/rutgers...-mirror.net/biomirror/genbank el as 158 F b ru y 2 07 87 x 106 Records 57 x 10 Nucl eotid s 263 Gb (non-WGS)

13

������������

:���� ������6�!FC=C)���-�

������������

���$-����

web pageweb page

���� ���!��"�!���!��# ��������� :���� 6���H������ ���� ���!��"�!���!��# ��������� :���� 6���H������

������������

1���2�7���"���

� :���� ������ ���1$*�8������

� �"$�, $��������������,������������

M�������

� 77 ����#��7������7���"��

���������������.N�� ����ON��/

��������������.,���8�$���*8�7/

� :���� ������ ���1$*�8������

� �"$�, $��������������,������������

M�������

� 77 ����#��7������7���"��

���������������.N�� ����ON��/

��������������.,���8�$���*8�7/

������������

� ��� $�,�7���"��

� ,��������������#���#�.��$�,/

� $���������������������������

� ������������������

� ��������3��������������������

� N#��=&�����������$�,��.��QQQQQQQ/

� ,��������������#���#�.��$�,/

� $���������������������������

� ������������������

� ��������3��������������������

� N#��=&�����������$�,��.��QQQQQQQ/

Page 14: rutgers part1 - DIMACSdimacs.rutgers.edu/Workshops/NCBI2007/slides/rutgers...-mirror.net/biomirror/genbank el as 158 F b ru y 2 07 87 x 106 Records 57 x 10 Nucl eotid s 263 Gb (non-WGS)

14

������������

$���������"$�,

������������

��$�,

$���������"$�,

������������

��$�,

$���������"$�,

������������

��$�,

Page 15: rutgers part1 - DIMACSdimacs.rutgers.edu/Workshops/NCBI2007/slides/rutgers...-mirror.net/biomirror/genbank el as 158 F b ru y 2 07 87 x 106 Records 57 x 10 Nucl eotid s 263 Gb (non-WGS)

15

������������

1���2�7���"���

� :���� ������ ���1$*�8������

� �"$�, $��������������,������������

M�������

� 77 ����#��7������7���"��

���������������.N�� ����ON��/

��������������.,���8�$���*8�7/

� :���� ������ ���1$*�8������

� �"$�, $��������������,������������

M�������

� 77 ����#��7������7���"��

���������������.N�� ����ON��/

��������������.,���8�$���*8�7/

������������

����#��7������7���"��

� ���������-�������������

� ,�������3������������������������.,$$�/

� $������$���*8�,���8�N��8�ON��8����

� �����������������.��������3�����������������/

� ���������-�������������

� ,�������3������������������������.,$$�/

� $������$���*8�,���8�N��8�ON��8����

� �����������������.��������3�����������������/

������������

77 ������������

"�������.����

��R

Page 16: rutgers part1 - DIMACSdimacs.rutgers.edu/Workshops/NCBI2007/slides/rutgers...-mirror.net/biomirror/genbank el as 158 F b ru y 2 07 87 x 106 Records 57 x 10 Nucl eotid s 263 Gb (non-WGS)

16

������������

77

S��T(CC(F()BT�"T��$A'A=(!)T��*,'��?$������� ������4��@��LDU,65�*L11�OOU�O�L��,���OOU,OD5O5���7�1�5O��,LO$$1�$UU�$,$$*�7$OL*5*�7��6�$L$��1$�5$*56DL$$�LL$5U�O$���OD���$L*,1�5OO��1��$,�UD�L$�*$1L1$*$�$,$$$$UO�,5�LL$U,5*UL*L������*�$LU$�1�L�$OO��LO$�UL$5�����*L1D7,�55*$,1�5�1�

"����>�������������

������������

77

�����������������"������������������-����������7

�����������������"������������������-����������7

������������

77

"��>�*�� ����

������������

77

Pfam

COG

CD

?����(����

Page 17: rutgers part1 - DIMACSdimacs.rutgers.edu/Workshops/NCBI2007/slides/rutgers...-mirror.net/biomirror/genbank el as 158 F b ru y 2 07 87 x 106 Records 57 x 10 Nucl eotid s 263 Gb (non-WGS)

17

������������

77

�������*�������

������������

77

7��*������#��7���������������������#���*���

������������

77

7��*������#��7���������������������#���*���

������������

$��+�$�������

77

Page 18: rutgers part1 - DIMACSdimacs.rutgers.edu/Workshops/NCBI2007/slides/rutgers...-mirror.net/biomirror/genbank el as 158 F b ru y 2 07 87 x 106 Records 57 x 10 Nucl eotid s 263 Gb (non-WGS)

18

������������

$��������; �=7 ������������

*�����

� �"����� �

� �� �����#�#�+

� ,�������#� ���#���#�����"���

� *��������$-����.��$-/����0��

� $�����1���2�����"���

� �������

3"���3

� 1���2��4����������

� $�������������������

� $-���������������3 5�$*

� ������������4����

� �"����� �

� �� �����#�#�+

� ,�������#� ���#���#�����"���

� *��������$-����.��$-/����0��

� $�����1���2�����"���

� �������

3"���3

� 1���2��4����������

� $�������������������

� $-���������������3 5�$*

� ������������4����

������������5��������5����

������������

NNO$�7���"��

Page 19: rutgers part1 - DIMACSdimacs.rutgers.edu/Workshops/NCBI2007/slides/rutgers...-mirror.net/biomirror/genbank el as 158 F b ru y 2 07 87 x 106 Records 57 x 10 Nucl eotid s 263 Gb (non-WGS)

19

������������

���@"����������/����� �����

������������

NNO$�7���"��

������������

NNO$�7���"�� ������������

�������������������M

Page 20: rutgers part1 - DIMACSdimacs.rutgers.edu/Workshops/NCBI2007/slides/rutgers...-mirror.net/biomirror/genbank el as 158 F b ru y 2 07 87 x 106 Records 57 x 10 Nucl eotid s 263 Gb (non-WGS)

20

������������

�����

������