rutgers part1 -...
TRANSCRIPT
1
������������
����������������� �����������������������
����������� ����� ���
����� ��� ��������� ��������������
April 11, 2007 Rutgers
���� ���!��"�!���!��# ��" �������� $���� �����# %&&' ������!&(!))!&'
������������
*�����
� �"����� �
� �� �����#�#�+
� ,�������#� ���#���#�����"���
� *��������$-����.��$-/����0��
� *��1���2��������������"���
3"���3
� 1���2��4����������
� ��������������
� $-���������������3 5�$*
� ������������4����
� �"����� �
� �� �����#�#�+
� ,�������#� ���#���#�����"���
� *��������$-����.��$-/����0��
� *��1���2��������������"���
3"���3
� 1���2��4����������
� ��������������
� $-���������������3 5�$*
� ������������4����
������������
*������������������������6����
5�����6
���
�����
�
����������
������������
*������������������� �����������������������
� ���������"������������������������
� 7#�������������������2���������
� ��������#���#�����"����"������������������
����
� ,��#������������8�����8���������#����������
����8����������������������1���2������
2
������������
� ��9"�*�������
Users per day
300,000
200,000
100,000
400,000
1998 1999 2000 2001 2002 2003 2004
500,000
600,000
2005
Christmas and New Year’s Day
��������������������������������
(.com, .net, (.com, .net, .org,.org,..govgov, .us), .us)
40%40%
Japan 6%Italy 4%
Canada 3%Germany 3%
United Kingdom3%
Netherlands 2%Spain 2%
Brazil 2%Sweden 1%Switzerland 1%Belgium1%
OtherOther14%14%
��������������������������������
(.com, .net, (.com, .net, .org,.org,..govgov, .us), .us)
40%40%
Japan 6%Italy 4%
Canada 3%Germany 3%
United Kingdom3%
Netherlands 2%Spain 2%
Brazil 2%Sweden 1%Switzerland 1%Belgium1%
OtherOther14%14%
������������
� ��9"�:����; :�������7��8�<�������%&&'
������������
� ��9"�:����; 6�������7��8�<�������%&&'
������������
6������3 ����������������
all[filter]
3
������������
&) %) %&&'&) %) %&&'
= =) &'= =) &'
������������� ������������
����������������
� ��������������
� �� ���������
� �����������������������������
� �������������� !�"#�!����
� ��$���$���������� ��������������������
� �����������������������������%#��&'
� ���������(��)!���*!�(�"#�!�+����!�#��&������!�
"�����!�����$��������
� ��������������
� �� ���������
� �����������������������������
� �������������� !�"#�!����
� ��$���$���������� ��������������������
� �����������������������������%#��&'
� ���������(��)!���*!�(�"#�!�+����!�#��&������!�
"�����!�����$��������
������������
�����
ftp://ftp.ncbi.nih.gov/genbank/ftp://genbank.sdsc.edu/pub
ftp://bio-mirror.net/biomirror/genbank
Release 158 February 200787 x 106 Records
157 x 109 Nucleotides
263 Gb (non-WGS) 1115 files .���39�$/
• full release every two months• incremental and cumulative updates daily• available only via ftp• release notes: gbrel.txt
����� ������������
Aug-97 Aug-98 Aug-99 Aug-00 Aug-01 Aug-02 Aug-03 Aug-04 Aug-05 Aug-060
20
40
60
80
100
120
140
160
Bas
es
(bill
ions
)
*�����+�������� ���
Non-WGS: 69.0 billion basesNon-WGS: 69.0 billion bases
WGS: 81.6 billion basesWGS: 81.6 billion bases
Release 157Release 157
Doubling time 12-14 months
4
������������
,������������ -
� ������������� �-��������"���
� �����#�� ��������
� 6���������
� ������#������"���������������#�+�.��"0���#/
� ��������
� �� ����7���
� 7�������"���������.������������������/
� �������"���������.1$*8��$$8�$*$/
� �������������.���������/
� *��������"������������"���
� �� ���
� 7���7���"������<�����.77 </�
� 1���������������� �������5�"��������.1� 5/�7���"��
� ������������� �-��������"���
� �����#�� ��������
� 6���������
� ������#������"���������������#�+�.��"0���#/
� ��������
� �� ����7���
� 7�������"���������.������������������/
� �������"���������.1$*8��$$8�$*$/
� �������������.���������/
� *��������"������������"���
� �� ���
� 7���7���"������<�����.77 </�
� 1���������������� �������5�"��������.1� 5/�7���"��
������������
�� ����7�#������
“Organismal”(Traditional)
PRI (28) PrimateROD (15) RodentPLN (20) Plant and FungalBCT (18) Bacterial/ArchealINV (7) InvertebrateVRT (7) Other VertebrateVRL (4) ViralMAM (2) MammalianPHG (1) PhageSYN (1) SyntheticENV (4) Envir. samplesUNA (1) Unannotated
“Functional”(Bulk)
EST (570) Expressed Sequence TagGSS (197) Genome Survey SequenceHTG (88) High Throughput GenomicPAT (27) PatentSTS (9) Sequence Tagged SiteCON (1) Contigs, virtual
• Organized by taxonomy (sort of)• Direct submissions (Sequin/Bankit)• Accurate (~1 error per 10,000 bp)• Well characterized
• Organized by sequence type• Batch submissions (ftp/email) • Less accurate• Poorly characterized
������������
�� ���������������. ���/�7�#������
� � �� ��� �
� � �
� � �
� � �
� 14������$-����*��14������$-����*��14������$-����*��14������$-����*��
� )�������������������7��
� �����$��#��$-��������$��#��$-��������$��#��$-��������$��#��$-���
� )�������������������7��
� 6����*����������������6����*����������������6����*����������������6����*����������������
� ����������-���������������
�����
� $-����*�����$��$-����*�����$��$-����*�����$��$-����*�����$��
� ,�3"������������������
9���������$������9���������$������9���������$������9���������$������
������������
1$*�7�#�������1$*�7�#�������1$*�7�#�������1$*�7�#�������11114������4������4������4������$$$$-����-����-����-����****������������
RNA gene products
��������������� ��
80-100,000 uniquecDNA clones in library
- isolate unique clones - sequence once from
each end
make cDNA library
5’
3’
>IMAGE:275615 3', mRNA sequenceNNTCAAGTTTTATGATTTATTTAACTTGTGGAACAAAAATAAACCAGATTAACCACAACCATGCCTTATTATCAAATGTATAAGANGTAAATATGAATCTTATATGACAAAATGTTTCATTCATTATAACAAATTTAATAATCCTGTCAATNATATTTCTAAATTTTCCCCCAAATTCTAAGCAGAGTATGTAAATTGGAAGTTCTTATGCACGCTTAACTATCTTAACAAGCTTTGAGTGCAAGAGATTGANGAGTTCAAATCTGACCAAGGTTGATGTTGGATAAGAGAATTCTCTGCTCCCCACCTCTANGTTGCCAGCCCTC
>IMAGE:275615 5' mRNA sequenceGACAGCATTCGGGCCGAGATGTCTCGCTCCGTGGCCTTAGCTGTGCTCGCGCTACTCTCTCTTTCTGGTGGAGGTATCCAGCGTACTCCAAAGATTCAGGTTTACTCACGTCATCCAGCAGAGAATGGAAAGTCAATTCCTGAATTGCTATGTGTCTGGGTTTCATCCATCCGACATTGAAGTTGACTTACTGAAGAATGGAGAGAATTGAAAAAGTGGAGCATTCAGACTTGTCTTTCAGCAAGGACTGGTCTTTCTATCTCTTGTACTACTGAATTCACCCCCACTGAAAAAGATGAGTATGCCTGCCGTGTTGAACCATGTNGACTTTGTCACAGNCAAGTTNAGTTTAAGTGGGNATCGAGACATGTAAGGCAGGCATCATGGGAGGTTTTGAAGNATGCCGCNTTGGATTGGGATGAATTCCAAATTTCTGGTTTGCTTGNTTTTTTAATATTGGATATGCTTTTG
5
������������
�� ���� ����$-�����1$*
�������������.��������������.�
������������
�$$8�6*�8�9�$
����
Whole BAC insert (or genome)
�������������-���
�$$���#������������������#
7������-����.6*����#�����/
����"��+��������������������"����.+������0���/
������������
/������������������.
> ���������������������
> ���������-�����.,����=/���#����������
�������������� ������#������
> ���������������������
> ���������-�����.,����=/���#����������
�������������� ������#������
������������
,�������������?����@���7��"��#����?,�������@
���0 ���$0��1����
6
������������
9���������$�������,��0���
� ABC����0���� �������.=%&/
� 1�#�����������-�����.)(/
� �������.B/
� 1���������.)(&/8�����������
� �����8����8�����8�7���.%/8�������28�6�����
� ,�������� .%/
� 6���"8��������8������������.=/8�$���+���
� �������.%/
� D�����.B/8������������ .%/
� ����.%/
� ABC����0���� �������.=%&/
� 1�#�����������-�����.)(/
� �������.B/
� 1���������.)(&/8�����������
� �����8����8�����8�7���.%/8�������28�6�����
� ,�������� .%/
� 6���"8��������8������������.=/8�$���+���
� �������.%/
� D�����.B/8������������ .%/
� ����.%/
������������
9���������$�������.9�$/�,��0���
wgs master[properties]
ftp://ftp.ncbi.nih.gov/genbank/wgs/
������������
*�����
� �"����� �
� �� �����#�#�+
� ,�������#� ���#���#�����"���
� *��������$-����.��$-/����0��
� *��1���2��������������"���
3"���3
� 1���2��4����������
� ��������������
� $-���������������3 5�$*
� ������������4����
� �"����� �
� �� �����#�#�+
� ,�������#� ���#���#�����"���
� *��������$-����.��$-/����0��
� *��1���2��������������"���
3"���3
� 1���2��4����������
� ��������������
� $-���������������3 5�$*
� ������������4����
������������
7��#���# 7���"���
� � �� �
� ���� �� ��� ���� � �� � �
���� ���
� ��� � � �� �
� !����! "�"�#� ��
$�%�
� "�����& ' $( %)��%* ������
�� �� �� � �
� � �
� � �
� � �
+� , � & � +$' - ���
,' . . � � +� � . � $
ATT GA
ATT
C
GA
C
GA
C
C
CATT
TAACT
� "�����
%)' ��,
��$-
7
������������
9�������������$-����E
1���2����������-����
�����?��������@���7������?����@
������������
9�������������$-����E1���2����������-����
�����?��������@���7������?����@
������������
�����?��������@���7������?����@���7����������?����@
=F%'�"�
()C&�"�
=F%'�"�
%=%=�"�
%A)�"�
�����?��������@���7������?����@���7����������?����@
������������
�������������
����������������
�������
> ���3��������G�"������������#
>������������������������-���������������
"������
>��������8����"���������������
8
������������
�������������
����������������
�������
� ���������������
%#�0234567'
� ����
� ��������� � ����
�����������������������
%����� �8�#�02345678�#,0'
� �����
� ����� ���
������������������
%#90234567:;<'
���������������
%#90234567:;<'
%=90234567:;<'
%=�0234567:;<'
������������
������$-��������$-
�������������������������������� $-����*��$-����*��$-����*��$-����*��
NM_123456789 ����
NP_123456789 ������8��������HNR_123456 ���3����������XM_123456 ������������XP_123456 ��������������XR_123456 �����������3����������ZP_12345678 ��������������IH
NC_123456 ������8�!�!8�����������NG_123455 ������8���������������
NT_123456 ������8� ������"��NW_123456 ������8�9�$�����"��NZ_ABCD12345678 ������, 9�$����������
������������
Genomic DNAGenomic DNA((NCNC,, NTNT,, NWNW))
Model mRNAModel mRNA (XM)(XM)(XR)(XR)
Curated mRNACurated mRNA (NM)(NM)(NR)(NR)
Model protein Model protein (XP)(XP)
�����������,�����
Curated ProteinCurated Protein (NP)(NP)
Scanning....
GenbankSequences
RefSeq
������������
���������H�������
������������#��7����������
���������������
5����������
�����������#�������)�����������#�������%�����������#�������=
9
������������
*�����
� �"����� �
� �� �����#�#�+
� ,�������#� ���#���#�����"���
� *��������$-����.��$-/����0��
� *��1���2��������������"���
3"���3
� 1���2��4����������
� ��������������
� $-���������������3 5�$*
� ������������4����
� �"����� �
� �� �����#�#�+
� ,�������#� ���#���#�����"���
� *��������$-����.��$-/����0��
� *��1���2��������������"���
3"���3
� 1���2��4����������
� ��������������
� $-���������������3 5�$*
� ������������4����
������������
���2
������������
GENSAT
*��1���2�$����
Entrez
Nucleotide
PubMed
Protein
StructureDomains 3D Domains
Taxonomy
Journals
PMC
OMIM
Books
PopSet
SNP
UniGeneUniSTS
Genome
Gene
GEO
MeSH
CancerChromosomes
Homologene
PubChem
Probe
������������
1���2�7���"���
� �������������7���"������������������2��"�����������.*�4������7���"��/.*�4������7���"��/.*�4������7���"��/.*�4������7���"��/!
� 1�����������������������:�7!� ��J���-����������������K ��������������������
� 1����������������4��"������������!� ?������@8�?����@8�?��������@8���������������
� 1���������������#����7�������$������!� �������������������������������.7��$��/
� 1������������������������������������������������������ ���"������������������:�7��������������������"���!
10
������������
1���2�5����
Links
������������
��L�+�����"$�,
������������
1���2�7���"���
� :���� ������ ���1$*�8������
� �"$�, $��������������,������������
M�������
� 77 ����#��7������7���"��
���������������.N�� ����ON��/
��������������.,���8�$���*8�7/
� :���� ������ ���1$*�8������
� �"$�, $��������������,������������
M�������
� 77 ����#��7������7���"��
���������������.N�� ����ON��/
��������������.,���8�$���*8�7/
������������
Gene-oriented clusters of expressed sequences
> ����������������������������� ����
> 1������������������������-����
> ��������"�����������
> �������������������������������������������
> :�����������������#��������������������������
������
:����
���-����
11
������������
�����������1$*�
mRNA query
5’ EST hits
3’ EST hits
������������
:��������������
������������
:��������������
$���� :���� 1�����
������������
:���� 6��"�����)F(����.��+����P%&)/
12
������������
:���� ������6�!ACAFB&5����8�������3������#�.5�,1/ �
�����������
:���� ������6�!ACAFB&
������������
:���� ������6�!FC=C)��4�������
������������
:���� ������6�!FC=C)��4�������
13
������������
:���� ������6�!FC=C)���-�
������������
���$-����
web pageweb page
���� ���!��"�!���!��# ��������� :���� 6���H������ ���� ���!��"�!���!��# ��������� :���� 6���H������
������������
1���2�7���"���
� :���� ������ ���1$*�8������
� �"$�, $��������������,������������
M�������
� 77 ����#��7������7���"��
���������������.N�� ����ON��/
��������������.,���8�$���*8�7/
� :���� ������ ���1$*�8������
� �"$�, $��������������,������������
M�������
� 77 ����#��7������7���"��
���������������.N�� ����ON��/
��������������.,���8�$���*8�7/
������������
� ��� $�,�7���"��
� ,��������������#���#�.��$�,/
� $���������������������������
� ������������������
� ��������3��������������������
� N#��=&�����������$�,��.��QQQQQQQ/
� ,��������������#���#�.��$�,/
� $���������������������������
� ������������������
� ��������3��������������������
� N#��=&�����������$�,��.��QQQQQQQ/
14
������������
$���������"$�,
������������
��$�,
$���������"$�,
������������
��$�,
$���������"$�,
������������
��$�,
15
������������
1���2�7���"���
� :���� ������ ���1$*�8������
� �"$�, $��������������,������������
M�������
� 77 ����#��7������7���"��
���������������.N�� ����ON��/
��������������.,���8�$���*8�7/
� :���� ������ ���1$*�8������
� �"$�, $��������������,������������
M�������
� 77 ����#��7������7���"��
���������������.N�� ����ON��/
��������������.,���8�$���*8�7/
������������
����#��7������7���"��
� ���������-�������������
� ,�������3������������������������.,$$�/
� $������$���*8�,���8�N��8�ON��8����
� �����������������.��������3�����������������/
� ���������-�������������
� ,�������3������������������������.,$$�/
� $������$���*8�,���8�N��8�ON��8����
� �����������������.��������3�����������������/
������������
77 ������������
"�������.����
��R
16
������������
77
S��T(CC(F()BT�"T��$A'A=(!)T��*,'��?$������� ������4��@��LDU,65�*L11�OOU�O�L��,���OOU,OD5O5���7�1�5O��,LO$$1�$UU�$,$$*�7$OL*5*�7��6�$L$��1$�5$*56DL$$�LL$5U�O$���OD���$L*,1�5OO��1��$,�UD�L$�*$1L1$*$�$,$$$$UO�,5�LL$U,5*UL*L������*�$LU$�1�L�$OO��LO$�UL$5�����*L1D7,�55*$,1�5�1�
"����>�������������
������������
77
�����������������"������������������-����������7
�����������������"������������������-����������7
������������
77
"��>�*�� ����
������������
77
Pfam
COG
CD
?����(����
17
������������
77
�������*�������
������������
77
7��*������#��7���������������������#���*���
������������
77
7��*������#��7���������������������#���*���
������������
$��+�$�������
77
18
������������
$��������; �=7 ������������
*�����
� �"����� �
� �� �����#�#�+
� ,�������#� ���#���#�����"���
� *��������$-����.��$-/����0��
� $�����1���2�����"���
� �������
3"���3
� 1���2��4����������
� $�������������������
� $-���������������3 5�$*
� ������������4����
� �"����� �
� �� �����#�#�+
� ,�������#� ���#���#�����"���
� *��������$-����.��$-/����0��
� $�����1���2�����"���
� �������
3"���3
� 1���2��4����������
� $�������������������
� $-���������������3 5�$*
� ������������4����
������������5��������5����
������������
NNO$�7���"��
19
������������
���@"����������/����� �����
������������
NNO$�7���"��
������������
NNO$�7���"�� ������������
�������������������M
20
������������
�����
������