genomicprediconinplantbreeding - alphagenes · 226 240 244 248 254 54 231 63 238 236 195 235 222...

35
Genomic predic,on in plant breeding and NGS data John Hickey CIMMYT / The Roslin Ins5tute Susanne Dreisigacker, Jose Crossa, Gregor Gorjanc

Upload: others

Post on 01-Sep-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Genomic  predic,on  in  plant  breeding  and  NGS  data  

John  Hickey  CIMMYT  /  The  Roslin  Ins5tute  

 Susanne  Dreisigacker,  Jose  Crossa,  Gregor  Gorjanc  

Page 2: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Outline  

•  Two  components  to  talk  –  Genomic  selec5on  in  plant  breeding  programs  –  Low-­‐coverage  sequence  data  for  genomic  selec5on  

•  Overarching  thought  –  Animal  breeding  has  been  successful  in  the  adop5on  of  genomic  selec5on  because  the  genotyping  plaLorm  was  not  a  barrier  

–  Animal  breeders  used  SNP  chips  and  imputa5on  –  It  makes  sense  for  animal  breeders  to  transi5on  to  low-­‐coverage  data  now,  but  infrastructure  needs  to  be  developed  

–  Plant  breeders  are  focused  on  low-­‐coverage  from  the  start  – Major  barrier  to  progress  and  costs  much  more  

Page 3: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Genomic  selec,on  in  plant  breeding  programs  in  a  nutshell  

•  Tool  for  es5ma5ng  breeding  values  –  Exploits  correla5on  structure  on  the  genome  –  Can  cost  as  liQle  as  $11  per  individual  

•  Four  roles  for  GS  –  Choosing  parents  –  Recurrent  selec5on  of  early  genera5on  material  –  Reducing  cost  of  preliminary  yield  trials  –  Extra  opportuni5es  such  as  more  widespread  selec5on  for  HTM  traits  

•  Two  ways  of  doing  GS  have  different  costs  and  benefits  –  Linkage  informa5on  (Correla5on  within  family)  –  Linkage  disequilibrium  informa5on  (Correla5on  within  popula5on)  

•  Four  most  important  things  to  get  right  –  Genotyping  pla9orm  (One  aspect)  –  Training  popula,on  design  –  Breeding  program  design  –  Overall  cost/benefit  to  breeder  

Page 4: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Rela5onships  drive  the  accuracy  of  genomic  selec5on  (and  size  of  training  set)  

R²  =  0.96203  

0  

0.1  

0.2  

0.3  

0.4  

0.5  

0.6  

0.7  

0.8  

0.9  

0   0.1   0.2   0.3   0.4   0.5   0.6  

Accuracy  of  G

EBV  

Mean  of  the  Top  Ten  Rela,onships  

Page 5: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Our  hypothesis  

•  That  GS  will  be  useful  for  recurrent  selec5on  of  F2  material    

•  Ini5ated  a  simula5on  –  Two  approaches    

•  Linkage  based  –  Short  term  –  Low  marker  density  and  phenotype  number  –  Limited  rela5onship  distance  for  accuracy  

•  LD  based  –  Long  term  –  High  marker  density  and  phenotype  number  –  Much  less  limited  rela5onship  distance  for  accuracy  

•  Ini5ated  two  field  experiments  

Page 6: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

One  proposed  model  for  early  cycle  GS  

•  Make  cross  and  generate  F2  (e.g.  400)  

•  Select  a  number  of  these  at  random  (e.g.  50)  –  Genotype    –  Phenotype  (By  grandprogeny  tes5ng  –  bit  weird  but  keeps  balance)  –  Train  predic5on  model  

•  Genotype  remaining  F2  –  Predict  breeding  values  on  the  basis  of  predic5on  model  

•  Intercross  the  best  10%  of  all  F2      (Recurrent  selec5on)  –  How  many  rounds  of  intercrossing?  

•  200  markers  probably  sufficient  –  More  with  more  intercrossing  

•  Problem  with  this  approach  –  Time  taken  to  collect  phenotypes  –  Extra  phenotyping  

Page 7: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Alterna,ve  proposed  model  for  early  cycle  GS  

•  Make  cross  and  generate  F2  (e.g.  400)  

•  Train  predic5on  model  from  last  years  phenotypes/Other  families  

•  Genotype  all  F2  –  Predict  breeding  values  on  the  basis  of  predic5on  model  

•  Intercross  the  best  10%  –  How  many  rounds  of  intercrossing?  

•  200  markers  not  sufficient  

•  Problem  with  this  approach  –  Phenotypes  need  to  be  from  related  BP-­‐families  –  Marker  density  needs  to  be  higher  (Imputa5on)  

•  Benefit  of  this  approach  –  No  5me  penalty  –  Can  use  other  phenotypes  (e.g.  preliminary  yield  trials)  

Page 8: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Unknown  ques,ons  

•  Which  design  is  beQer?  

•  How  many  F2  phenotyped?  

•  What  marker  density  /  marker  plaLorm?  

•  Can  F2  phenotypes  from  other  bi-­‐parental  popula5ons  be  used?  –  What  marker  density  makes  this  work?  –  How  related  do  these  bi-­‐parental  popula5ons  need  to  be?  

•  Can  F4/F6/F10  yield  trials  from  other  bi-­‐parental  families  be  used?  –  Ques5ons  the  same  as  above  

•  What  about  G  by  E?  

Page 9: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136
Page 10: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

226

240

244

248

254 54 231 63 238

236

195

235

222

232

237

239

234

184 80 76 55 115 94 103

105 44 40 58 167 88 146

129

194 71 175

136 25 113 81 155

163

141 31 48 37 35 24 22 34 165 7 6

133

180 9

168 33 174

166

158

114 56 116

101 61 185 91 70 43 59 118

121

124

102

211 87 150 97 39 65 111 67 119 47 75 123

202

192

209

204

206

250

154

149

203 92 160

199 83 182

208

179

205

201

207 45 41 68 42 51 219

109

128

159

161

225

108

125

137

117 26 107 84 8 10 216

224

220

198

181

134

143

187 85 90 52 177

127 53 27 19 57 14 16 246 20 21 17 130

138 66 100

145 15 11 104 89 164

135 46 49 170

151

132 12 13 18 241

245

189

140

247

106

147 50 227

214

152

243

190 36 176 78 112 72 38 212

253

213 30 169 29 162

188

193

196

233 32 156 23 77 60 249 95 64 2 1 197

218

242

131 62 228

148

110

178

171

157

230

252 4 5 3

144 69 96 73 74 172 98 79 173

200 28 186

142

191

183

223

215 82 251

153

229 99 86 221

217 93 122

126

210

139

120

120139210126122932172218699229153251822152231831911421862820017379981727473966914435425223015717117811014822862131242218197126495249607723156322331961931881622916930213253212387211278176361902431522142275014710624714018924524118131213215117049461351648910411151451006613813017212024616145719275312717752908518714313418119822022421610884107261171371251082251611591281092195142684145207201205179208182831991609220314915425020620420919220212375471196711165399715087211102124121118594370911856110111656114158166174331689180133671653422243537483114116315581113251361757119412914688167584044105103941155576801842342392372322222351952362386323154254248244240226

This  range  of  rela,onships  are  typical  in  a  breeding  program  

Page 11: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Other  aspects  of  simula,on  

•  F2  phenotypes  are  actually  the  mean  of  their  F2:3*Tester  grandprogeny    

•  Trait  with  a  heritability  of  0.5  for  plot  mean  (3  plots)  

•  Addi5ve  gene5c  effects  sampled  from  a  normal  distribu5on  

•  10,000  QTL  (e.g.  Grain  Yield)  

•  Data  analyzed  with  ridge  regression  

•  9  different  marker  densi5es  

•  9  different  numbers  of  phenotypes  

•  17  different  levels  of  rela5onships  

•  Accuracy  of  GEBV  measured  as  the  correla5on  between  GEBV  and  TBV  

Page 12: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Train  and  predict  in  BP-­‐X  

Page 13: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Train  in  BP-­‐P  Predict  in  BP-­‐X  

Page 14: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Train  in  BP-­‐G  Predict  in  BP-­‐X  

Page 15: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Train  in  BP-­‐U  Predict  in  BP-­‐X  

Page 16: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Train  in  BP-­‐M  Predict  in  BP-­‐X  

•  (a)  4P  +  8G  +  0U  (b)  4P  +  0G  +  40U  (c)  0P  +  8G  +  40U  (d)  4P  +  8G  +  40U    

Page 17: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

What  the  modeling  tells  us  •  GS  for  early  genera5on  material  can  be  accurate  

•  Two  approaches  work  –  200  markers  with  50  phenotypes  in  BP-­‐X  –  10,000  markers  with  2,500  to  25,000  phenotypes  in  BP-­‐M  –  Do  not  need  more  than  10,000  markers  

•  Approach  1  –  High  cost  per  selec5on  decision  –  Low  persistency  –  Takes  5me  –  Good  for  ini5al  use  and  proof  of  concept  

•  Approach  2  –  High  overall  cost  –  Low  cost  per  selec5on  decision  –  High  persistency  and  good  for  intercrossing  –  No  5me  wasted  –  Good  for  long  term  rou5ne  applica5on  

Page 18: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Next  steps  

•  Field  experiment  to  validate  

•  Extend  to  other  heritability's,  traits,  species  

•  Collect  phenotypes  at  F6  instead  

•  Op5mize  intercrossing/recurrent  selec5on  

•  Low  cost  genotyping  based  on  imputa5on  –  Accuracy  does  not  maQer  if  you  don’t  have  enough  selec5on  

candidates  –  We  have  souware  and  a  strategy  to  make  this  work  at  between  $11  

and  $22  (200,000  individuals  completed)  

Page 19: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Long  and  short  term  implementa,on  of  genomic  selec,on  in  plant  breeding  programs  

•  Short  term    –  We  want  to  use  linkage  based  predic5ons  locally  

•  Long  term    –  We  want  to  use  linkage  disequilibrium  based  predic5ons  across  the  whole  breeding  program  

•  Linkage  based  predic5ons    –  Have  low  cost  to  generate  but  also  have  a  low  value  

•  Linkage  disequilibrium  based  predic5ons  –  Have  a  high  cost  to  generate  but  a  high  value  

Page 20: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Conclusions  

•  Predic5ons  can  be  done  on  the  basis  of  linkage  or  linkage  disequilibrium  

•  Different  numbers  of  markers  and  phenotypes  needed  

•  Different  costs/uses/persistency  of  accuracy  

•  Field  experiments  can  cost  as  liQle  as  $30000  

•  Large  field  experiments  can  be  built  up  incrementally  

•  In  the  future  genomic  selec5on  will  be  based  on  linkage  disequilibrium  using  training  sets  with  10,000  to  20,000  phenotypes  

•  Imputa5on  is  the  key  to  making  this  work  for  large  numbers  of  selec5on  candidates  ($11  -­‐  $21)  

Page 21: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Low  coverage  data  

Page 22: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Low-­‐coverage  sequence  data  for  genomic  selec,on  

•  Simulated  data  –  CaQle  and  plants  

•  CaQle  simula5on  –  Coalescent  simulator  to  generate  historical  events  –  Final  genera5on  has  Ne  of  100  –  Drop  haplotypes  through  pedigree  

•  6  genera5ons  •  1000  animals  per  genera5on  

–  4  SNP  densi5es  •  3k,  10k,  60k,  300k  

–  Simple  GBS  data  simulated  -­‐>  1-­‐(2/2x)  –  Trait  

•  h2  =  0.35  •  10,000  QTL  addi5ve  effects  from  normal  distribu5on  

Page 23: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Simplis,c  view  on  such  data  

•  Probability  to  call  heterozygote  if  true  state  is  heterozygous  –  #possible  events=2x  –  two  events  give  only  homozygotes  (00*00  and  11*11)  

𝑃𝑟(𝐻𝑜𝑚)=2/2𝑥  

–  the  rest  are  heterozygotes  𝑃𝑟(𝐻𝑒𝑡)=1−(2/2𝑥)  

𝒙   1   2   3   4   5   10  𝑃𝑟(𝐻𝑒𝑡)   0.000   0.500   0.750   0.875   0.938   0.998  

Page 24: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Analysis  

•  Train:  –  1000  phenotypes  from  genera5on  5    –  1000  genotypes  from  genera5on  5  (various  x)  

•  Predict:  –  500  genotypes  from  genera5on  6    (various  x)  

•  Ridge  regression  •  Measure  accuracy  =  Correla5on(gEBV,  TBV)  

Page 25: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Results  (a  series  of  graphs)  

Page 26: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Four  densi,es  

Page 27: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Density  3K  /  Coverage  

Page 28: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Density  and  Coverage  

3K   10K  

60K   300K  

Page 29: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Plant  GBS  results  (1k,  10k,  100k)  

!1!

Page 30: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Conclusions  

•  GBS  data  seems  to  be  promising!  

•  More  important  to  have  higher  X  in  predic,on  than  in  training  –  Unfortunate  and  contradic5ng  

•  GBS  works  be\er  with  denser  marker  panels  –  recover  lost  informa5on  with  more  markers  

•  Evalua,on  of  different  training  sizes  in  the  pipeline  –  can  we  expect  major  boost  for  low  X  and  large  training  popula5on?  

•  Imputa,on  

•  Prac,cal  use  –  Choice,  infrastructure  not  in  place  –  Hidden  costs  –  Results  not  good  –  Classical  SNP  Easier  

Page 31: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Classical  SNP  chips  and  imputa,on  

Page 32: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Classical  SNP  chips  and  genotype  imputa,on  

•  Genotype  parents  at  high  density  

•  Offspring  at  low  density  

•  Impute  

•  Current  costs  =  $22  

•  Op5miza5on  can  reduce  this  to  $11  

Page 33: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

The  cost  and  accuracy  of  sensible  strategies  

nSires                                =  480  nDams                            =  11884  nCandidates        =  100000  

60k  chip  =  $120  6k  chip      =  $48  3k  chip      =  $35  384  chip  =  $20  

Scenarios Other MGS + PGS MGD + PGD Sire Dam Candidates Individual cost Accuracy of Imputation R2

SC1 60k 60k 0 60k 0 384 ! 0.878 SC2 60k 60k 384 60k 384 384 $20.58 0.929 SC3 60k 60k 3k 60k 3k 384 $24.74 0.950 SC4 60k 60k 6k 60k 6k 384 $26.28 0.944 SC5 60k 60k 60k 60k 60k 384 $34.84 0.964 SC6 60k 60k 0 60k 0 3k ! 0.968 SC7 60k 60k 384 60k 384 3k ! 0.972 SC8 60k 60k 3k 60k 3k 3k $35.58 0.984 SC9 60k 60k 6k 60k 6k 3k $41.28 0.983 SC10 60k 60k 60k 60k 60k 3k $49.84 0.993 SC11 60k 60k 0 60k 0 6k ! 0.982 SC12 60k 60k 384 60k 384 6k ! 0.983 SC13 60k 60k 3k 60k 3k 6k ! 0.986 SC14 60k 60k 6k 60k 6k 6k $48.58 0.991 SC15 60k 60k 60k 60k 60k 6k $62.84 0.996 SC16 60k 60k 60k 60k 60k 60k $120.00 1.000

Page 34: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Effect  of  imputa5on  on  GEBV  accuracy  

Results#:#gEBV#accuracy#•  Calculate'gEBV'using'single^stage'evaluaNon1'

•  Compare'gEBV'from'full'dense'genotyping'to'gEBV'from'low^density'genotyping/imputaNon'

N HD Geno.

Genotyping Scenario Imputed gEBV

Accuracy

Other PGS+MGS

PGD+MGD Sire Dam Progeny 450 3k 6k

S1 2519 H H H H H L 0.94 0.97 0.97 S2 2344 H 0 0 H H L 0.89 0.95 0.96 S3 2318 H H 0 H 0 L 0.87 0.92 0.93 S4 2318 H H L H L L 0.90 0.96 0.97 S1_r 323 0 H H H H L 0.79 0.81 0.80 S2_r 148 0 0 0 H H L 0.71 0.73 0.71 S3_r 122 0 H 0 H 0 L 0.69 0.76 0.75 S4_r 122 0 H L H L L 0.75 0.80 0.80 !"! 1Aguilar'et'al.','2009'

Page 35: Genomicprediconinplantbreeding - AlphaGenes · 226 240 244 248 254 54 231 63 238 236 195 235 222 232 237 239 234 184 80 76 55 115 94 103 105 44 40 58 167 88 146 129 194 71 175 136

Acknowledgements  •  CIMMYT  

–  Jose  Crossa  –  Susanne  Dreisigacker  –  Sarah  Hearne  –  Gregor  Gorjanc  –  Janez  Jenko  –  Seeds  of  Discovery,  CRP  Wheat,  CRP  Maize  

•  Aviagen  –  Andreas  Kranis  

•  Genus  –  MaQhew  Cleveland  

•  University  of  New  England  –  Julius  van  der  Werf  –  Brian  Kinghorn  –  Bruce  Tier